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作者 


拉 杰 什 。 阿 鲁 姆 甘 


(Rajesh Arumugam ) 


目前 在 新 加 坡 SAP 公 司 负责 机 器 学 习 
开发 工作 ， 此 前 曾 与 日 立 亚洲 ( 新 加 
坡 ) 社会 创新 中 心 合作 ， 为 智慧 城市 的 
多 个 领域 开发 过 机 器 学 习 解 决 方案 。 毕 
业 于 南洋 理工 大 学 ， 获 计算 机 工程 博士 
学 位 ， 曾 在 多 个 会 议 上 发 表 过 论文 ， 并 
在 存储 和 机 器 学 习 方 面 拥有 专利 。 


拉 贾 林 加 帕 * 尚 穆 加 马 尼 


(Rajalingappaa Shanmugamani) 


目前 在 Kairos 担 任 技术 经 理 ， 此 前 作 
为 数据 学 习 专 家 在 新 加 坡 SAP 公 司 创 
新 中 心 工 作 ， 并 在 开发 计算 机 视觉 产品 
的 许多 创业 公司 负责 过 开发 和 咨询 工 
作 。 毕 业 于 印度 理工 学 院 马 德 拉 斯 分 
校 ， 获 硕士 学 位 ， 学 位 论文 主题 基于 产 
业 中 计算 机 视觉 的 应 用 程序 。 他 还 在 该 
领域 发 表 了 若干 论文 。 


效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


了 加 妈 程 序 设 计 从 书 


Hands-on Natural Language Processing with Python 


de 


[ 印 ] 拉 杰 什 . 阿 鲁 姆 甘 ” 拉 贾 林 加 帕 . 尚 穆 加 马 尼 @ 著 ， 杨 航 O 译 


人 民 邮 电 出 版 社 
北 紊 


图 书 在 版 编目 〈C | 


P) 数据 


























Python 自然 语言 处 理 实战 人 ( 印 ) 拉 杰 什 。 阿 鲁 姆 甘 ， 
( 印 ) 拉 贾 林 加 由 。 尚 称 加 马 尼 著 ; 杨 航 译 . -- 北京 : 


























人 民 邮 电 出 版 社 ，2020. 10 
(图 灵 程 序 设计 从 书 ) 

















ISBN 978-7-115-54926-6 


TI，G@P… 本，@ 拉 … 名 拉 … @ 杨 … 了 H，Q@ 软 件 工 



































一 程序 设计 @ 自 然 语言 处 理 IV. QTP311. 561@TP391 


















































国 版 本 图 书馆 CIP 数 据 核 字 (2020) 第 181557 号 


内 容 提 要 


本 书 介绍 自然 语言 处 理 和 深度 学 习 的 核心 概念 ， 例 如 CNN、RNN、 语 义 腊 入 和 Word2vec 等 。 
自然 语言 处 理 任 务 ， 以 及 如 何在 自然 语言 处 理应 用 程序 中 训练 和 部 署 神经 网 络 。 
读者 会 在 各 种 应 用 领域 中 使 用 RNN 和 CNN， 例 如 文本 分 类 和 序列 标记 ， 这 对 于 情绪 分 析 、 客 服 聊天 机 器 
人 和 蜡 常 检测 的 应 用 至 关 重 要 。 读 者 还 将 掌握 使 用 Python 流行 的 深度 学 习 库 TensorFlow 在 语言 应 用 程序 
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都 可 以 从 本 书 中 获 益 。 

4 车 [ 印 ] 拉 杰 什 . 阿 鲁 姆 冉 ” 拉 贾 林 加 帕 . 尚 穆 加 马 尼 
译 杨 航 
责任 编辑 杨 琳 
责任 印 制 ” 周 异 亮 

儿 人 民 邮 电 出 版 社 出 版 发 行 ”北京 市 丰台 区 成 寿 寺 路 11 号 
邮编 ”100164 电子 邮件 ”315@ptpress.com.cn 
网 址 https:Wwww.ptpress.com.cn 
北京 印刷 

多 开本 : 800X1000 1/16 
印张 : 14.25 
字数 ，337 千 字 2020 年 10 月 第 1 版 
印 数 : 1 - 2 500 册 2020 年 10 月 北京 第 1 次 印刷 

著作 权 合 同 登 记号 ”图 字 : 01-2019-3977 号 
定价 : 59.00 元 
读者 服务 热线 : (010)51095183 转 600 ” 印 装 质 量 热线 : (010)81055316 


























读者 将 


工程 师 






































反 盗 版 热线 : (010)81055315 
广告 经 营 许可 证 : 京东 市 监 广 登 字 20170147 号 


版 权 声 明 


Copyright © 2018 Packt Publishing. First published in the English language under the title Hands-on 
Natural Language Processineg with Python. 


Simplified Chinese-language edition copyright © 2020 by Posts & Telecom Press. All rights reserved. 


本 书 中 文 简体 字 版 由 Packt Publishing 授权 人 民 邮 电 出 版 社 独家 出 版 。 未 经 出 版 者 书面 许可 ， 
不 得 以 任何 方式 复制 或 抄袭 本 书 内 容 。 


版 权 所 有 ， 侵 权 必 完 。 



































序 





目前 , 语音 转录 、 机 器 翻译 、 对 话 代 理 和 情感 分 析 等 形式 的 智能 数字 助理 已 被 广泛 应 用 于 各 
个 领域 , 让 人 机 交互 愈 发 便利 。 聊 天 机 器 人 正在 成 为 多 数 网 站 的 组 成 部 分 ,虚拟 助手 在 家 庭 和 办 
公 室 中 也 越 来 越 受 欢迎 。 虽然 有 大 量 资 源 介绍 了 自然 语言 处 理 ( natural language processing, NLP ) 
概念 下 的 这 些 主题 , 但 本 书 不 仅 涵盖 了 相关 基础 知识 和 最 新 技术 , 还 包括 流行 框架 和 工具 包 的 使 
用 示例 ， 是 一 本 NLP 方面 不 可 多 得 的 全 面 指南 。 


初次 受 邀 为 本 书 作 序 时 , 我 很 高 兴 可 以 传达 出 驱使 作者 写作 本 书 的 那 份 热情 , 但 不 确定 如 何 
才能 最 好 地 展示 这 一 绝 佳 的 最 新 知识 来 源 ， 以 及 能 真正 脱颖而出 、 用 于 NLP 的 机 器 学 习 (machine 
learning，ML ) 实用 手册 。 


本 书 作者 在 机 器 学 习 领 域 的 声誉 无 须 过 多 解释 。 和 凭借 在 世界 一 流 大 学 中 的 学 术 教育 水 平 以 及 
在 ML 开发 方面 的 多 年 领导 经 验 ,， 拉 杰 什 和 拉 贾 林 加 帕 是 撰写 本 书 的 绝 佳 人 选 。 在 我 眼中 , 他们 
不 仅 学 识 渊博 ， 而 且 是 热情 的 教育 家 ， 能 用 简单 的 语言 传达 复杂 的 概念 。 拉 贾 林 加 帕 热 袁 于 帮助 
初创 企业 起 步 并 以 开放 的 心态 向 年 轻 公司 提供 专业 知识 , 令 人 钦佩 。 我 相信 ， 即 使 作为 本 书 的 读 
者 ， 你 也 可 以 向 他 提问 ， 并 一 定 会 得 到 令 人 信服 的 答案 。 


本 书 结构 合理 ， 写 得 也 很 出 彩 。 从 具体 的 例子 到 基本 的 概念 解释 、 再 到 代码 片段 ， 本 书 可 以 指 
导 具 有 各 层次 深度 学 习 知 识 水 平 的 读者 。 本 书 的 章节 结构 得 到 了 精心 的 设计 ， 以 保证 在 整个 过 程 中 
都 能 使 读者 全 神 贯 注 。 你 将 兴奋 地 发 现 本 书 将 文本 处 理 与 分 类 的 流行 技术 与 最 新 方法 结合 在 了 一 起 。 

通过 阅读 本 书 ， 你 将 学 习 到 如 何 执行 常见 的 NLP 任务 ， 例 如 使 用 Python 的 自然 语言 工具 包 
进行 文本 的 预 处 理 和 探索 性 分 析 ; 了 人 解 深度 神经 网 、Google 的 TensorFlow 框架 和 递归 神经 网 络 
的 构造 块 ， 包 括 长 短期 记忆 网 络 ; 还 将 掌握 词 租 入 的 概念 ， 以 便 在 上 下 文中 使 用 语义 。 

讲 完 基础 知识 后 , 本 书 将 进一步 指导 你 开发 各 种 应 用 架构 和 深度 神经 网 络 模型 , 包括 文本 分 
类 、 文 本 生成 和 文本 摘要 、 问 答 、 语 言 翻 译 、 语 音 识别 以 及 文本 转 语音 。 

本 书 最 后 提供 了 各 种 方法 来 在 各 个 平台 上 部 署 训练 好 的 NLP 任务 模型 。 学 完 本 书 ， 你 将 了 
解 NLP 中 的 数据 科学 范式 , 并 且 能 按照 作者 的 设想 在 生产 环境 的 商业 应 用 中 部 署 深度 学 习 模 型 。 

Maryam Azh 博士 
Overlay Technologies 创始 人 
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前 


在 深度 学 习 出 现 之 前 , 传统 的 自然 语言 处 理 ( natural language processing，NLP ) 方法 已 被 广 
泛 用 于 诸如 垃圾 邮件 过 滤 、 情 感 分 类 和 词性 ( part of speech，POS ) 标注 等 任务 中 。 这 些 经 典 方 
法 利用 了 序列 的 统计 学 特征 ( 如 字数 统计 和 共 现 ) 以 及 简单 的 语言 特征 。 但 是 ,这 些 技术 的 主要 
缺点 在 于 无 法 捕获 复杂 的 语言 特征 ， 例 如 上 下 文 和 单词 依存 关系 。 


神经 网 络 和 深度 学 习 的 最 新 发 展 为 我 们 提供 了 强大 的 新 工具 ， 能 在 NLP 任务 中 达到 人 类 级 
别 的 表现 ， 并 构建 用 于 处 理 自然 语言 的 产品 。 用 于 NLP 的 深度 学 习 围 绕 着 词 能 和 或 词 向 量 (也 
称 为 Word2vec ) 的 概念 展开 ， 该 概念 将 单词 和 短语 的 含义 封装 为 密集 的 向 量 表示 形式 。 与 传统 
的 独 热 编码 (one-hot encoding ) 相 比 ， 词 向 量 能 够 更 好 地 捕获 单词 的 语义 信息 。 把 它 与 循环 神经 
网 络 (recurrent neural network，RNN ) 结合 使 用 ， 能 以 直观 的 方式 处 理 语言 的 时 序 特征 。 尽 管 
RNN 只 能 捕获 局 部 的 单词 依存 关系 , 但 最 近 有 人 提出 了 基于 向 量 对 词 向 量 序列 执行 attention ( 注 
意 力 ) 和 对 齐 操作 ， 人 允许 神经 网 络 对 包括 上 下 文 在 内 的 全 局 单词 依存 关系 进行 建 模 。 由 于 能 够 对 
语言 的 语法 和 语义 进行 模型 化 , 并 且 具 有 强大 的 经 验 表 现 以 及 适应 新 数据 的 泛 化 能 力 , 神经 网 络 
已 成 为 构建 高 度 复杂 商业 产品 ( 例如 搜索 引擎 、 翻 译 服务 和 对 话 系 统 ) 的 首选 模型 。 


本 书 介绍 了 NLP 深度 学 习 模 型 的 基本 构建 模块 ， 并 探讨 了 最 新 文献 中 的 前 沿 技 术 。 我 们 采 
用 基于 问题 进行 实战 学 习 的 方法 ， 在 各 种 NLP 任务 中 引入 新 模型 作为 解决 方案 。 我 们 着 重 于 提 
供用 Python 实现 的 实用 代码 ， 你 也 可 将 其 应 用 于 自己 的 用 例 ， 为 你 的 应 用 引入 能 与 人 类 媲美 的 
能 力 。 


目标 读者 


本 书 适合 希望 利用 NLP 技术 开发 具有 丰富 人 性 化 接口 的 智能 应 用 的 开发 者 。 本 书 假定 你 已 
具备 机 器 学 习 (machine learning，ML ) 或 深度 学 习 的 入 门 知 识 ， 以 及 中 级 的 Python 编程 技能 。 
我 们 的 目标 是 使 用 TensorFlow 框架 和 Python 来 介绍 用 于 情感 检测 、 对 话 系 统 、 语 言 翻 译 和 语音 
转 文本 等 NLP 任务 的 前 沿 技术 。 

你 将 从 深度 学 习 的 基本 概念 出 发 , 逐步 深入 处 理 自然 语言 的 最 新 算法 和 最 佳 实践 。 我 们 着 力 
于 使 用 实际 数据 实现 应 用 并 部 署 深度 学 习 模 型 ， 以 在 生产 环境 中 为 商业 应 用 赋予 与 人 类 媲美 的 
能 力 。 









































































































































































































































本 书 内 容 


第 1 章 “ 起 步 ” 这 一 章 探讨 了 NLP 的 基本 概念 及 其 试图 解决 的 各 种 问题 。 我 们 还 将 介绍 
一 些 现实 中 的 应 用 ， 使 你 体会 到 NLP 的 广泛 使 用 。 


第 2 章 “ 使 用 NLTK 进行 文本 分 类 和 词性 标注 ” 这 一 章 介绍 了 流行 的 Python 库 NLTK。 
我 们 将 使 用 NLTK 来 描述 基本 的 NLP 任务 ,例如 分 词 、 词 干 提取 、 标 注 和 经 典 文本 分 类 ， 并 将 
利用 NLTK 来 探索 词性 标注 。 我 们 为 你 提供 了 必需 的 工具 和 技术 , 用 以 准备 要 输入 深度 学 习 模 型 
中 的 数据 。 


第 3 章 “ 深 度 学 习 和 TensorFlow” ”这 一 章 介绍 了 深度 学 习 的 基本 概念 ， 还 将 帮助 你 设置 
环境 和 工具 (如 TensorFlow )。 在 这 章 的 最 后 ， 你 将 了 解 基本 的 深度 学 习 概念 ， 例 如 卷 积 神经 网 
络 ( convolutional neural network，CNN )、 循 环 神经 网 络 (recurrent neural network，RNN )、 长 短 
期 记忆 (1long-short term memory，LSTM ) 网 络 、 基 于 attention 的 模型 以 及 NLP 中 的 问题 。 


第 4 章 “ 使 用 浅 层 模型 进行 语义 家 入 ” ”这 一 章 探讨 了 如 何 识 别 文档 中 单词 间 的 语义 关系 ， 
我 们 会 在 此 过 程 中 获得 单词 在 语料库 中 的 向 量 表示 。 这 章 介 绍 了 使 用 神经 网 络 开发 词 租 入 模型 ， 
例如 连续 词 袋 模型 ( continuous bag-of-words，CBOW )， 还 对 开发 神经 网 络 模 型 以 获得 文档 向 量 
的 技术 进行 了 介绍 。 在 这 章 的 最 后 ， 你 将 会 熟悉 单词 、 句 子 和 文档 的 嵌入 训练 ,并 实现 简单 网 络 
的 可 视 化 。 


第 5 章 “ 使 用 LSTM 进行 文本 分 类 ” ”这 一 章 讨 论 了 各 种 文本 分 类 方法 ， 其 中 一 个 具体 应 
用 是 对 文档 中 的 单词 或 短语 进行 情感 分 类 。 这 童 介绍 了 文本 分 类 问题 ,之 后 描述 了 使 用 CNN 和 
LSTM 开发 深度 学 习 模 型 的 技术 , 还 介绍 了 如 何 使 用 预 训练 的 词 戏 入 进行 迁移 学 习 来 用 于 文本 分 
类 任务 。 最 后 ， 你 将 熟悉 如 何 实现 用 于 情感 分 类 和 垃圾 邮件 检测 的 深度 学 习 模 型 ， 并 将 预 训 练 好 
的 词 各 人 用 于 自己 的 分 类 任务 中 。 


第 6 章 “ 使 用 CNN 进行 搜索 和 去 重 ” 这 一 章 涵盖 了 文档 搜索 、 匹 配 和 去 重 的 问题 及 其 
决 方法 , 介绍 了 如 何 开发 用 于 在 语料库 中 搜索 文本 的 深度 学 习 模 型 。 在 这 章 的 最 后 ,你 将 学 会 
现 用 于 文本 搜索 和 去 重 的 CNN 深度 学 习 模 型 。 


第 7 章 “ 使 用 字符 级 LSTM 进行 命名 实体 识别 ” 这 一 章 描述 了 执行 命名 实体 识别 ( named 
entity recognition，NER， 它 是 信息 提取 的 子 任务 ) 以 定位 和 分 类 文档 文本 中 实体 的 方法 。 这 章 介 
绍 了 NER 问题 以 及 该 问题 的 应 用 范围 ， 然 后 解释 了 基于 字符 的 LSTM 深度 学 习 模 型 的 实现 ， 该 
模型 能 用 于 识别 用 标记 数据 集训 练 得 到 的 命名 实体 。 


第 8 章 “ 使 用 GRU 进行 文本 生成 和 文本 摘要 ” 这 一 章 介 绍 了 用 于 生成 文本 的 方法 ， 其 中 
一 种 方法 的 扩展 可 用 于 从 文本 数据 中 创建 摘要 。 之 后 我 们 将 描述 如 何 实现 用 于 生成 文本 的 深度 学 
习 模 型 ， 并 介绍 用 于 文本 摘要 的 基于 门 控 循环 单元 (gaterecurrentunit，GRU ) 的 深度 学 习 模 型 。 
在 这 章 末 尾 ， 你 将 学 到 如 何 实现 用 于 文本 生成 和 文本 摘要 的 深度 学 习 模 型 。 
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第 9 章 “ 使 用 记忆 网 络 完成 问答 任务 和 编写 聊天 机 器 人 ” ”这 一 章 介 绍 了 如 何 训练 深度 学 习 
模型 来 回答 问题 并 将 其 扩展 成 为 聊天 机 器 人 , 还 介绍 了 问答 技术 这 一 问题 以 及 使 用 深度 学 习 模 型 
构建 问答 引擎 的 方法 ,之 后 我 们 将 描述 如 何 利用 问答 引擎 来 构建 能 够 以 对 话 形式 进行 问答 的 聊天 
机 需 人 。 在 这 草 的 最 后 ， 你 将 能 够 实现 一 个 交互 式 聊 天 机 融 人 。 


第 10 章 “使 用 基于 attention 的 模型 进行 机 器 翻译 ” 这 一 章 涉及 无 须 学 习 语 法 结构 即 可 将 
文本 从 一 种 语言 翻译 成 另 一 种 语言 的 各 种 方法 。 这 章 介绍 了 传统 的 机 顺 翻 译 方法 , 例如 基于 隐 马 
尔 可 夫 模 型 的 方法 。 之 后 我 们 将 重点 介绍 利用 attention 将 文本 从 法 语 翻译 为 英语 的 编码 - 解码 模 
型 的 实现 。 在 这 章 的 最 后 ， 你 将 能 够 实现 用 于 文本 翻译 的 深度 学 习 模 型 。 


第 11 章 “使 用 DeepSpeech 进行 语音 识别 ” 这 一 章 介 绍 了 语音 转 文本 的 问题 ， 作 为 会 话 
式 界面 的 开始 。 这 章 从 语音 数据 的 特征 提取 开始 , 接 下 来 对 Deep Speech 体系 结构 进行 简要 介绍 ， 
然后 解释 了 语音 转 文本 的 Deep Speech 架构 的 详细 实现 。 在 这 章 的 末尾 ， 你 将 具备 实现 语音 转 文 
本 深度 学 习 模 型 的 相关 知识 。 


第 12 章 “ 使 用 Tacotron 进行 文本 转 语音 ” 这 一 章 介绍 了 文本 转 语音 的 问题 ， 以 及 利用 
Tacotron 模型 实现 将 文本 转换 为 语音 的 过 程 。 最 后 ， 你 将 熟悉 基于 Tacotron 架构 的 文本 转 语音 模 
型 的 实现 。 


第 13 章 “部 署 训 练 好 的 模型 ” 最 后 这 一 章 介 绍 了 在 各 种 云 平台 和 移动 平台 上 的 模型 部 署 。 


如 何 充 分 利用 本 书 


阅读 本 书 的 先决 条 件 是 具有 机 器 学 习 或 深度 学 习 的 基本 知识 ,以 及 中 级 的 Python 编程 技能 ， 
但 这 些 都 并 非 必需 。 我 们 会 在 第 1 章 中 简要 介绍 深度 学 习 ， 并 涉及 诸如 多 层 感知 器 、 卷 积 神经 网 
络 和 循环 神经 网 络 之 类 的 主题 。 如 果 你 了 解 通用 的 机 顺 学 习 概 念 〈 例 如 过 拟 合 和 模型 正则 化 ) 以 
及 经 典 模型 ( 例如 线性 回归 和 随机 森林 )， 将 有 所 帮助 。 在 更 高 级 主题 的 章节 中 ， 你 可 能 会 遇 到 
深入 的 代码 演练 ， 这 需要 基本 的 Python 编程 经 验 。 


如 下 一 节 所 述 , 本 书 中 的 所 有 示例 代码 都 可 以 从 代码 库 中 下 载 。 这 些 示例 主要 利用 开源 工具 
和 开源 数据 库 ， 并 且 都 使 用 Python 3.5 或 更 高 版 本 编写 。 本 书 中 使 用 最 多 的 库 是 TensorFlow 和 
NLIK， 其 详细 安装 说 明 分 别 包含 在 第 2 章 和 第 3 章 中 。 尽 管 运行 本 书 中 的 示例 不 需要 图 形 处 理 
器 ( graphics processing unit，GPU )， 但 建议 读者 使 用 包含 GPU 的 系统 环境 ， 因 为 更 为 复杂 的 任 
务 涉及 更 大 的 模型 及 数据 集 ， 所 以 我 们 建议 在 本 书 的 后 半 部 分 使 用 GPU 进行 模型 的 训练 。 
































































































































下 载 示 例 代码 文件 


你 可 以 通过 www.packtpub.com 上 的 账户 下 载 本 书 的 示例 代码 文件 。 如 果 是 从 其 他 地 方 购买 了 
本 书 ， 则 可 以 访问 www.packtpub.com/support 并 注册 ， 以 便 我 们 将 文件 通过 电子 邮件 发 送 给 你 。 






































你 可 以 通过 以 下 步 又 下 载 代 码 文件 : 


(1) 在 www.packtpub.com 上 登录 或 注册 ; 

(2) 选择 支持 (Support) 标签 ; 

(3) 单 击 代 码 下 载 及 勘误 (Code Downloads & Errata) ; 
(4) 在 搜索 (Search) 栏 键入 书 名 并 遵循 屏幕 上 的 指示 。 


下 载 好 文件 之 后 ， 请 确保 使 用 以 下 最 新 版 本 的 文件 解压 缩 /提取 工具 : 


口 WinRAR/7-Zip( Windows 系统 ); 
口 Zipeg/iZip/UnRarX (macOS 系统 ); 
口 7-Zip/PeaZip (Linux 系统 )。 























下 载 彩色 图 像 

我 们 还 提供 了 包含 本 书 截 图 /图 表 彩 色 图 像 的 PDF 文件 以 供 下 
排版 约定 

本 书 会 使 用 如 下 排版 约定 。 











等 宽 字 体 表 示 代 码 ， 如 下 所 示 : “ pip 安装 程序 可 用 于 安装 NLTK 库 ， 并 同时 安装 NumPy 
库 ( 可 选 ),” 


代码 段 以 如 下 方式 展示 : 
>>> large words = dict([(k,v) for k,v in frequency_dist.items() if 
len(k)>3]) 


>>> frequency_dist = nltk.FreqDist (large_words) 
>>> frequency_dist.plot(50,cumulative=False) 


命令 行 输入 输出 以 如 下 方式 展示 : 


import nltk 
nltk.download() 








黑体 表示 新 术语 和 重要 词语 ， 如 下 所 示 :“ 导 航 到 停 用 词 并 安装 它 ， 以 备 将 来 使 用 。” 
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人 此 图 标 表示 警告 或 者 重要 注释 。 

















Qa 代码 文件 和 彩色 图 像 均 可 以 在 图 灵 社 区 本 书 主 页 (ituring.cn/book/2679 ) 下 载 。 一 一 编者 注 

















ES 此 图 标 表示 提示 和 小 技巧 


联系 我 们 
我 们 总 是 欢迎 来 自 读者 的 反馈 。 
一 般 反 馈 : 请 将 邮件 发 送 到 feedback@packtpub.com 并 在 主题 中 提 到 书 名 。 如 果 你 有 本 书 领 域 
的 相关 问题 ， 请 发 送 邮 件 到 questions@packtpub.com。 
勘误 : 尽管 我 们 已 尽 最 大 努力 确保 本 书 内 容 的 准确 性 ， 但 错误 总 是 难以 避免 的 。 如 果 你 发 现 
了 本 书 中 的 错误 并 将 其 报告 给 我 们 , 我 们 会 非常 感激 。 请 访问 http://www.packtpub.com/submit-errata， 
选择 图 书 ， 单 击 勘误 提交 表 的 链接 并 输入 详细 信息 。 
反 盗 版 : 如 果 你 在 网 络 上 遇 到 任意 形式 的 非法 副本 时 将 地 址 或 网 站 名 称 提供 给 我 们 , 我 们 将 
非常 感激 。 请 通过 copyright@packtpub.com 联 系 我 们 并 附 上 材料 链接 。 


成 为 作者 : 如 果 有 你 擅长 的 领域 且 有 意向 对 此 编写 图 书 或 做 出 贡献 ， 







































































请 访问 http://authors. 




















packtpub.com/。 
评论 
请 留 下 评论 。 当 你 看 完 或 使 用 完 本 书后 , 为 什么 不 在 购买 网 站 上 留 下 评论 呢 ? 潜 在 的 读者 可 





以 看 到 并 利用 你 的 公正 观点 做 出 购买 选择 ， 在 Packt 的 我 们 可 以 了 解 到 你 关于 我 们 产品 的 想法 ， 
我 们 的 作者 也 可 以 看 到 你 的 反馈 。 谢 谢 你 ! 


如 需 有 关 Packt 的 更 多 信息 ， 请 访问 https://www.packtpub.com/。 








电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 
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起 步 








自然 语言 处 理 (NLP ) 是 使 用 计算 机 来 理解 人 类 语言 的 领域 , 涉及 使 用 计算 机 分 析 大 量 自然 
语言 数据 ， 以 收集 数据 的 意义 和 价值 供 实 际 应 用 使 用 。 尽 管 NLP 自 20 世纪 50 年 代 就 已 经 存在 ， 
但 随 着 机 器 学 习 和 深度 学 习 的 最 近 发 展 , 该 领域 的 实际 应 用 才 有 了 巨大 进展 。 本 书 的 大 部 分 内 容 
将 重点 研究 NLP 的 各 种 实际 应 用 ( 如 文本 分 类 ) 以 及 NLP 的 子 任务 ( 例如 命名 实体 识别 )， 并 
将 特别 着 重 于 深度 学 习 方 法 。 本 章 将 首先 介绍 NLP 领域 中 的 基本 概念 和 术语 ， 并 在 这 之 后 讨论 
NLP 技术 的 一 些 当前 应 用 。 


1.1 NLP 中 的 基本 概念 和 术语 


以 下 是 NLP 中 主要 与 语言 数据 相关 的 重要 术语 和 概念 。 熟 悉 它 们 将 有 助 于 你 速 理解 本 书后 
续 章节 中 的 内 容 : 


口 文本 语料库 

口 段落 

口 句子 

口 短语 和 单词 

口 n 元 语法 (n-gram ) 
口 词 袋 (bag-of-words ) 


我 们 将 会 在 接 下 来 几 节 里 进行 解释 。 






































1.1.1 文本 语料库 


所 有 NLP 任务 所 依赖 的 语言 数据 称 为 文本 语料库 ， 简 称 为 语料库 。 语 料 库 是 使 用 英语 、 法 
语 等 语言 的 一 大 组 文本 数据 ， 可 以 包含 一 个 或 一 堆 文 档 。 文 本 语料库 的 来 源 可 以 是 Twitter 等 社 
交 网 站 、 博 客站 点 、Stack Overflow 等 开放 式 论 坛 和 图 书 ， 等 等 。 在 诸如 机 器 翻译 之 类 的 某 些 任 
务 中 , 我 们 将 需要 一 个 多 语种 的 语料库 。 例 如 , 我 们 需要 同一 个 文档 内 容 的 英语 和 法 语 翻译 以 开 
发 机 器 翻译 模型 。 对 于 语音 任务 来 说 ， 我 们 还 需要 人 工 录音 和 相应 的 转录 语料库 。 
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在 后 面 的 大 多 数 章节 里 , 我 们 将 使 用 网 上 或 开源 数据 仓库 中 的 文本 语料库 和 语音 录音 。 对 许 
多 NLP 任务 来 说 ,语料库 被 划分 成 块 以 进一步 分 析 ， 这 些 分 块 可 以 是 段落 级 、 锯 子 级 或 单词 级 
的 。 我 们 将 在 随后 几 小 节 接 触 到 它们 。 





1.1.2 ”段落 

段落 是 NLP 任务 处 理 的 最 大 文本 单位 。 除 非 被 细 分 成 句子 ,否则 段落 级 别 的 边界 本 身 可 能 
处 不 大 ( 尽管 有 时 段落 也 能 被 视 为 上 下 文 的 分 界 )。 部 分 Python 库 提 供 了 可 将 文档 拆 分 为 多 个 段 
落 的 分 词 器 (tokenizer ) ”。 我 们 将 在 后 续 章 节 对 分 词 器 进行 介绍 。 




















1.1.3 句子 


句子 是 语言 数据 词法 单位 的 下 一 层次 。 句子 封闭 了 完整 的 含义 或 思想 和 上 下 文 。 它 通常 是 根 
据 由 标点 符号 ( 如 句号 ) 确定 的 边界 从 段落 中 被 提取 出 来 。 句子 还 可 以 传达 其 中 所 表达 的 观点 或 
情感 。 通 常 而 言 ， 句 子 由 词性 (POS ) 实体 ( 如 名 词 、 动 词 和 形容 词 等 ) 组 成 。 分 词 器 可 根据 标 
点 符号 将 段落 拆 分 为 句子 。 
































1.1.4 短语 和 单词 


短语 是 句子 中 可 以 传达 特定 含义 的 一 组 连续 单词 。 例 如 ， 在 句子 “明天 将 会 是 下 雨天 ”中 ， 
“将 会 是 下 雨天 ”表达 了 特定 的 思想 。 一 些 NLP 任务 从 句子 中 提取 关键 短语 用 以 搜索 和 检索 应 用 。 
文本 的 下 一 个 单位 是 单词 ， 它 也 是 最 小 的 单位 。 常 见 的 分 词 器 根据 空格 和 逗号 等 标点 将 句子 分 为 
单词 。 当 我 们 在 不 同 的 上 下 文中 使 用 同一 个 单词 时 ， 单 词 会 有 歧义 ， 这 也 是 NLP 的 问题 之 一 。 
稍 后 我 们 将 在 讨论 词 髋 入 时 看 到 如 何 很 好 地 处 理 它 。 
























































1.1.5 nn 元 语法 


一 系列 字符 或 单词 构成 一 个 n-gram。 例如 ， 一 元 (unigram ) 由 单个 字符 组 成 , 二 元 ( bigram ) 
由 两 个 字符 的 序列 组 成 ， 依 此 类 推 。 类 似 地 ， 单 词 n-gram 由 n 个 单词 的 序列 组 成 。 在 NLP 中 ， 
n-gram 被 用 作 诸 如 文本 分 类 之 类 的 任务 的 特征 。 


























1.1.6 ” 词 袋 


与 n-gram 相 比 ， 词 袋 不 考虑 词 序 ， 而 是 捕获 文本 语料库 中 单词 出 现 的 频数 。 词 袋 还 被 用 作 
情感 分 析 和 主题 识别 等 任务 之 中 的 特征 。 



































Qz 部 分 分 词 器 具有 分 句 功 能， 所 以 这 里 统称 分 词 器 。 一 一 译 者 注 
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在 下 面 各 节 中 ， 我 们 将 概述 NLP 的 以 下 应 用 : 


口 情感 分 析 

口 命名 实体 识别 
口 实体 链接 
口 文本 翻译 
口 自然 语言 推理 

口 语义 角色 标记 

口 关系 提取 

口 SQL 查询 生成 或 语义 解析 
口 机 器 阅读 理解 

口 文字 旨 含 

口 指 代 消 解 

口 搜索 

口 问答 和 聊天 机 器 人 

口 文本 转 语 音 

口 语音 转 文本 

口 说 话 人 识别 

口 口语 对 话 系 统 

口 其 他 应 用 











1.2 NLP 技术 的 应 用 


本 节 将 概述 NLP 技术 的 主要 应 用 。 此 处 列 出 的 主题 尽管 并 非 详尽 ， 但 会 使 你 了 解 到 NLP 技 
术 的 广泛 应 用 。 





1.2.1 情感 分 析 


句子 或 文本 中 的 情感 反映 了 产生 或 怀 有 该 情感 的 人 总 体 正 面 、 负 面 或 中 立 的 观点 或 想法 。 它 
表示 出 一 个 人 对 于 描述 文本 的 主题 或 上 下 文 是 否 感到 快乐 、 不 快乐 或 平静 。 情 感 可 以 被 量化 为 离 
散 值 ， 例 如 1 表示 快乐 、-1 表示 不 快乐 、0 表示 平静 ， 也 可 以 在 0 ~ 1 连续 区 间 上 进行 量化 。 因 
此 ,人 情感 分 析 是 从 不 同 数据 源 ( 如 社交 网 络 、 产 品评 论 、 新 闻 文 章 等 ) 获得 的 一 段 文本 中 得 出 量 
化 值 的 过 程 。 情 感 分 析 在 现实 世界 中 的 一 种 应 用 是 从 社交 网 络 数据 中 得 到 有 价值 的 情报 , 例如 客 
户 满意 度 、 产 品 或 品牌 的 知名 度 、 时 尚 趋势 等 。 图 1-1 显示 了 情感 分 析 的 一 种 应 用 ， 它 可 以 捕获 
关于 Google 的 特定 新 闻 文 章 的 整体 意见 。 


















































Document & Sentence Level Sentiment 


Score Magnitude 


Entire Document EC 


Google, headquartered in Mountain View, unveiled the new Android phone at the | 
Consumer Electronic Show 


Sundar Pichai said in his keynote that users love their new Android phones， 0.6 0.6 


Score Range -10 一 025 5 — 0.2: 0.25—1.0 











图 1-1 
1-1 表明 ， 整 个 文档 以 及 单个 句子 级 别 的 情感 数据 都 已 被 捕获 。 





1.2.2 ”命名 实体 识别 


命名 实体 识别 (named entity recognition ，NER ) 是 一 种 文本 注释 任务 。 在 NER 中 ， 文 本 中 
的 单词 或 词 元 被 解析 或 注释 为 具体 类 别 ， 例 如 组 织 、 位 置 和 人 物 等 。 实 际 上 ，NER 将 非 结 构 化 
文本 数据 转换 为 结构 化 数据 以 便 展 开 进 一 步 分 析 。 图 1-2 是 从 Google Cloud API 获得 的 可 视 化 效 
果 ， 你 可 以 尝试 使 用 该 接口 。 








Google, headquartered in Mountain View, unveiled the new Android phone at the Consumer ANALYZE 
Electronic Show. Sundar Pichai said in his keynote that users love their new Android phones. 


See supported languages 


Entities Sentiment Syntax Categories 


{Google)1, headquartered in (Mountain View)6, unveiled the new (Android)4 (phone)3 at the (Consumer Electronic Show)7y. 


(Sundar Pichai)s said in his (keynote)9 that (users)2 love their new (Android)4 (‘phones)s. 
ORGANIZATION PERSON 
Sentiment: Score 0 Magnitude 0 Sentiment: Score 0.4 Magnitude 0.9 
Wikipedia Article Salience: 0.15 


Salience: 0.26 


CONSUMER GOOD R CONSUMER GOOD 
i ob Ecorsen Go 


Sentiment: Score0 Magnitude 0 Sentiment: Score 0.1 Magnitude 0.2 


Salience: 0.13 Wikipedia Article 
Salience: 0.12 


SOI N 
5. Sundar Pichai EPSON 6. Mountain View 


Sentiment: Score 0 Magnitude 0.1 Sentiment: Score 0 Magnitude0 

Wikipedia Article Wikipedia Article 

Salience: 0.11 Salience: 0.10 

7. Consumer Electroni 8. phones 
Sentiment: Score 0 Magnitude 0 Sentiment: Score 0.7 Magnitude 0.7 

Wikipedia Article Salience: 0.03 


Salience: 0.07 
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图 1-2 显示 了 NER 如 何 自动 地 从 原始 的 非 结构 化 文本 中 提取 不 同 实体 ， 例 如 组 织 (Google)、 
人 物 (Sundar Pitchai) 和 事件 (消费 电子 科技 展 )， 等 等 。 输 出 还 会 基于 情感 分 析 结 果 给 出 每 个 
标签 或 类 别 的 情感 。 你 可 以 使 用 Google Cloud 尝试 不 同 的 文本 。 当 我 们 单 击 “类 别 ”( Categories ) 
选项 卡 时 ， 可 以 看 到 如 图 1-3 所 示 内 容 。 





Entities Sentiment Syntax Categories 
/Computers & Electronics /Internet & Telecom/Mobile & Wireless 
Confidence: 0.61 Confidence: 0.53 


/News 


Confidence: 0.53 














图 1-3 


图 1-3 显示 了 系统 如 何 使 用 文本 的 命名 实体 识别 将 特定 文本 分 类 为 计算 机 和 电子 学 、 新 闻 等 。 
这 种 分 类 称 为 主题 建 模 ， 是 用 于 识别 句子 或 文档 主旨 或 主题 的 另 一 个 重要 的 NLP 任务 。 











1.2.3 ”实体 链接 


NLP 的 另 一 个 实际 应 用 是 实体 链接 。 我 们 可 以 在 Microsoft Azure 的 文本 分 析 API 中 找到 一 
个 很 好 的 例子 。 图 1-4 显示 了 示例 文本 的 输出 。 














1had a wonderful trip to Seattle and enjoyed seeing the Space Needle! | aaen | JSON 
@ LANGuAGES: English (confidence: 100 %) 
@ kEY PHRASES: Seattle, wonderful trip, Space Needle 
@ UNKED ENTITIES 1had a wonderful trip to Seattle and enjoyed seeing 
(PREVIEW): the Space Needle! 
Example - English - Positive Example - English - Negative Example - Spanish - Positive Example - Spanish - Negative 








1-4 显示 了 系统 是 如 何 自动 将 实体 西雅图 〈Seattle) 作为 位 置 提取 的 。 有 趣 的 是 ， 系 统 通 
过 将 太空 针 塔 (the Space Needle) 与 西雅图 相连 接 ， 正 确 地 将 其 提取 为 地 标 性 建筑 。 这 表明 在 
提取 实体 间 有 用 关系 时 ， 命 名 实体 链接 的 功能 是 非常 强大 的 。 
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1.2.4 文本 翻译 


机 噩 翻 译 将 给 定 的 一 段 文本 从 一 种 语言 翻译 成 另 一 种 目标 语言 。 任 务 中 首 移 确 定 初 始 语言 ， 
然后 将 其 翻译 为 目标 语言 。 事 实证 明 ，Google 的 翻译 应 用 消除 了 语言 障碍 ， 在 旅行 中 非常 有 用 。 
文本 翻译 的 最 新 技术 大 大 提高 了 翻译 的 准确 性 。 


1-5 是 访问 Google Translate 并 将 中 文 翻译 成 英文 的 示例 。 

















ay 







Source Language 全 Target Language 
Chinese (Simplified) (zh) - English (en) 
Sample text, Ente 0 Ancient written Chinese is called classical 
古代 书面 ， 现 代 书 面 汉语 一 般 Chinese. Modern written Chinese generally 
. ry og 
指使 用 现代 标准 汉语 语法 、 词 昔 的 中 文通 行文 refers to the use of modern standard Chinese 


标准 
体 (又 称 白话 文 ) 。 grammar and Chinese vocabulary (also known 


as vernacular Chinese). 





Translate Text 


Request URL 


potato 


JSON Response 


{ 
"data": { 
"translations"; [ 


"translatedText"; "Ancient written Chinese is called classical Chinese. Modern wr 
itten Chinese generally refers to the use of modern standard Chinese grammar and Chinese 
vocabulary (also known as vernacular Chinese)." 


] 
} 











图 1-5 
图 1-5 还 显示 了 当 我 们 使 用 Google 的 Translation API 服务 时 ， 翻 译文 本 的 JSON 响应 。 








1.2.5 ”自然 语言 推理 


自然 语言 推理 (natural language inference，NLI ) 任务 对 前 提 和 假设 之 间 的 关系 进行 分 类 。 
在 推理 过 程 中 ,任务 将 前 提 和 假设 作为 输入 ， 并 基于 给 定 的 前 提 输 出 假设 是 否 为 真 的 判断 。 





1.2.6 ”语义 角色 标记 


语义 角色 标记 ( semantic role labeling，SRL ) 能 确定 给 定 句 子 与 谓语 (例如 动词 ) 之 间 的 关 
系 。 有 时 推理 是 通过 问题 的 形式 给 出 的 。 一 个 语义 角色 的 例子 可 能 是 : 某 事 在 何 地 或 何 时 发 生 ? 
图 1-6 是 一 个 出 自 AllenNLP 的 可 视 化 例子 。 





1.2 NLP 技术 的 应 用 中 


The keys which , were needed to access the building ， Po 
were locked in the car. 














needed 
| 1 动 启 | 
总 论 元 修饰 语 / 
The keys | to accessthe building 
‘ 论 元 1 Sm》 
UL 指 化- 和 











1-6 展示 了 语义 标记 是 如 何在 不 同文 本 片段 之 间 创 建 语义 关联 的 。 例 如 ， 需 要 (needed ) 
钥匙 ( The keys ) 的 目的 是 进入 大 楼 (to access the building )。 你 可 以 通过 AllenNLP 去 尝试 不 同 
的 示例 。 





1.2.7 关系 提取 


当 提 供 有 文本 和 关系 类 型 时 ， 关系 提取 可 以 进行 关系 的 预测 。 在 某 些 情况 下 , 关系 也 可 能 无 
法 被 提取 出 来 。 图 1-7 显示 了 基于 谓词 和 对 象 的 关系 提取 示例 。 





医 TextRazor. Demo Technology Documentation- Pricing | Login 


navee: eno processed in: 06572 seconds 


Barclays misled shareholders and the public about one of the biggest investments in the bank's history, a BBC Panorama investigation has found. 


words Phrases NEE enttos Meaning DependencyParse ns3 economy, business and finance>economy>macro 


economics>investments 








Subject Predicate Object FE 

meconomy, business and finance>economy 
Barclays ass economy, business and finance>market and 
rr exchange>securities 





economy, businessandfinance 


者 外 


economy, business and finance>business 
information>business finance>shareholder 
048 crime, law and justice>law 

“7 science and technology>social 
sciences>economics 


045 economy, business and finance>market and 





exchange>loan market>loans 
oa economy, business and finance>market and 
exchange 


o43 economy, business and finance>economic 





sector>financial and business service 











图 1-7 关系 提取 示例 
以 上 示例 显示 了 从 示例 文本 到 主题 、 谓 词 和 对 象 的 关系 提取 。 
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1.2.8 SQL 查询 生成 或 语义 解析 


语义 解析 有 助 于 将 自然 语言 转换 为 SQL 查询 语句 以 便 完成 对 数据 库 的 查询 ,图 1-8 展示 的 示 
例 将 自由 文本 查询 转换 为 DBpedia 数据 库 SPARQL 查询 ， 这 与 SQL 非常 相似 。 











Quepy 
EE oe @OY 加 


In this demo we demonstrate the use of the Quepy framework by generating queries to be ran in the DBpedia database or the Freebase 
database 


Read the tutorial to create an application like this one or view the finished code. Ey 
To learn more about the framework check out the documentation or the source code at github. 
Try it yourself: 


1. Ask a question 


Start by asking a question in natural language and watch the query generated: 


Question: | Example: Who are the actors of Titanic? 


2, Get a query 


This query was generated for the question "Who is Tom Cruise?" 


SPARQL MQL 

[I{ 
PREFIX owl : <http:/ /meen "/common/topic/description": [{}], 
PREFIX rdfs: <http:/ /mmmiiemtidntdntiit "/type/object/name~=": "Tom Cruise"， 
PREFIX rdf: <http://mmmiio "/type/object/type": "/people/person" 
PREFIX foaf : <http /VE | 
PREFIX skos: <http:/ /wml © 


PREFIX quepy: <http : / /EU 
PREFIX dbpedia: <http:/ /mimi 
PREFIX dbpprop: <http: // nim 
PREFIX dbpedia-owl : <http://nimmkig iii 


SELECT DISTINCT ?x1 WHERE 工 
?x@ rdf:type foaf:Person. 
?x0 rdfs:label "Tom Cruise"@en. 
?x@ rdfs:comment ?x1. 











图 1-8 


以 上 可 视 化 工具 在 底部 显示 了 将 “Who is Tom Cruise” 查 询 转换 为 SPARQL 查询 的 结果 。 
你 可 以 通过 该 网 站 尝试 其 他 查询 的 效果 。 











1.2.9 机 器 阅读 理解 


机 器 阅读 理解 (machine comprehension，MC ) 能 够 根据 段落 回答 问题 ， 类 似 于 学 生 们 进行 
的 阅读 理解 测试 。 图 1-9 是 来 自 AllenNLP 的 可 视 化 效果 ， 它 回答 了 “ 谁 出 演 了 《黑客 帝国 》 这 
一 问题 。 图 中 显示 了 答案 ， 以 及 整个 没落。 
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人 


Keanu Reeves, Laurence Fishburne, Carrie-Anne Moss, Hugo Weaving, and Joe Pantoliano 


Passage Context 


The Matrix is a 1999 science fiction action film written and directed by The 


Wachowskis, starring DEGLI TT ULL 
wT . It depicts a dystopian future in 


which reality as perceived by most humans is actually a simulated reality called 
"the Matrix", created by sentient machines to subdue the human population, 
while their bodies' heat and electrical activity are used as an energy source. 
Computer programmer "Neo" learns this truth and is drawn into a rebellion 
against the machines, which involves other people who have been freed from 


the "dream world." 











图 1-9 
通过 在 可 视 化 图 像 中 高 亮 特定 单词 ， 可 以 看 出 模型 是 如 何 运作 的 ， 如 图 1-10 所 示 。 





内 部 模型 (测试 版 ) 


从 段落 到 问题 的 注意 力 机 制 


对 于 段落 里 的 每 个 单词 ， 模 型 都 会 计算 它 对 于 被 问 到 的 单词 的 注意 力 。 以 
下 热 图 显示 了 注意 力 的 大 小 情况 并 针对 和 矩阵 中 的 每 一 行进 行 了 标准 化 。 


Keanu 画 
Reeves 图 

' 转 
Laurence 圈 
Fishburne 转 


Carrie 图 


Anne 画图 
Moss 较 

' 转 
Hugo 国 


Weaving 
' 国 
and 
Joe 柑 国 | 
Pantoliano 上 














图 1-10 
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1.2.10 ”文字 蕴 台 
文本 蕴含 (textual enrichment，TE ) 可 以 预测 不 同文 本 中 的 事实 是 否 相 同 。 图 1-11 对 此 进行 


了 可 视 化 描述 。 





ltis likely that the premise entails the hypothesis. 


E 判断 可 能 性 
蕴含 (E) 80.9% 
矛盾 (C) 4.4% 
中 性 (N) 14.7% 








内 部 模型 (测试 版 ) 











示例 中 的 前 提 是 “如 果 你 帮助 有 需要 的 人 ， 上 天 会 奖赏 你 "， 假设 是 “向 穷人 捐 钱 会 产生 良 
好 的 后 果 ”。 图 1-11 对 蕴含 、 矛 盾 和 中 性 结果 的 概率 都 进行 了 展示 。 


1.2.11 ” 指 代 消解 
当 有 多 人 进行 互动 时 ， 代 词 解析 会 解决 文本 中 代词 的 指 代 问 题 。 图 1-12 对 指 代 消解 示例 进 


行 了 可 视 化 。 





ee the fabrics, the fabric, 


文档 
We 're not going to skimp on quality ,but we are veryfocused to make next 


year. The only problem is that some of are wearing out - since | was 
anewbie | skimped on some offiiIIEI TI and the poor quality ones are 


developing holes . 











图 1-12 
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1.2.12 ”搜索 


在 网 站 上 搜索 信息 是 网 络 生活 不 可 或 缺 的 一 部 分 ， 同 时 也 是 NLP 技术 的 一 种 应 用 。 本 例 中 





的 搜索 服务 由 Bing API 提供 ， 如 图 1-13 所 示 。 





Yosemite National Park 


Examples 


Satya Nadella 


Seattle Seahawks 


Yosemite National Park 


El Gaucho Bellevue 


Coffee 98004 


Restaurants near me 


Market 
en-us (English-United States) 


Optional parameters 


Latitude 
Ey 


Longitude 
-122.4194 


Radius (meters) 


5000 





Pe 


4 


JSON 


BE” 


Yosemite National Park 


URL: hitPS /ER 


Yosemite National Park is a United States national park lying in the western Sierra Nevada of California. The park, 
which is managed by the U.S. National Park Service, covers an area of 747,956 acres. Designated a World Heritage 


Site in 1984, Yosemite is internationally recognized for its granite cliffs, waterfalls, clear streams, giant sequoia 
groves, lakes, mountains meadows, glaciers, and biological diversity. Almost 95% of the park is designated 


Wilderness. 


WikipediaText under CC-BY-SA license 


See more on Bing > 








图 1-13 约 塞 米 带 


国家 公园 的 搜索 结果 





搜索 API 可 以 同 应 用 集成 在 一 起 以 使 用 户 获得 更 好 的 体验 。 


1.2.13 ”问答 和 聊天 机 器 人 


当 提供 上 下 文 和 问题 时 ， 问 答 系 统 能 够 生成 答案 。 图 1-14 展示 了 聊天 机 器 人 的 范式 。 





























®@----------- 意图 

意图 响应 用 户 的 自然 语言 
输入 并 执行 操作 
— ld like to book a hotel S -~ 表达 

可 以 表达 意图 的 口述 或 手 
打 短 语 
时 隙 
时 隙 是 用 于 结束 意图 的 所 

What date are you leaving? 需 输入 

November 30th, 2016 

Are you sure you want to 

book the hotel in NYC? 

Thank you, The reservation 2 结束 

went through successfully 加 到 a 
针对 意图 的 结束 机 制 

图 1-14 


不 同 的 应 用 会 拥有 其 特定 的 聊天 机 器 人 。 


1.2.14 ”文本 转 语 音 
有 时 候 需 要 将 文本 转换 为 语音 。 对 于 个 人 机 器 人 来 说 ， 能 够 与 用 户 对 话 大 有 益处 。 


下 面 来 看 看 如 何 利用 AWS API 实现 Amazon Polly 的 文本 转 语 音 工 程 。 使 用 该 API， 我 们 可 
以 输入 文本 并 将 其 转换 为 语音 。 所 生成 的 音频 文件 可 以 流 式 传输 或 下 载 。 

转换 的 声音 听 起 来 应 该 足够 自然 以 使 用 户 产 生 共鸣 。Google 以 30 种 不 同 的 声音 、12 种 不 同 
的 语言 来 提供 文本 转 语音 服务 ， 且 其 语 速 和 音 高 都 是 可 调 的 。 图 1-15 显示 了 一 个 文本 转 语音 的 
示例 ， 其 中 所 有 的 参数 均 可 调整 。 
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Text to speak: 

Google Cloud Text-to-Speech enables developers to synthesize natural-sounding speech with 32 voices， 
available in multiple languages and variants. lt applies DeepMind's groundbreaking research in WaveNet 
and Google's powerful neural networks to deliver the highest fidelity possible. As an easy-to-use APl， 
you can create lifelike interactions with your users, across many applications and devices. 











text ssml 
Language / locale Voice type Voice name Speed 1.00 Pitch 0.00 
English (United States) ~ WaveNet > en-US-Wavenet-D = 一 全 一 人 步 
Request URL 
https://texttospeech .go0gleapiS mi si 
Request body 
"audioConfig": { 
"audioEncoding": "LINEAR16", 
"pitch": "8.68"， 
"speakingRate": "1.80" 
\ 
"input": 1 
"text": "Google Cloud Text-to-Speech enables developers to synthesize natural- 


sounding speech with 32 voices, available in multiple languages and variants. It a 
pplies DeepMind's groundbreaking research in WaveNet and Google’'s powerful neural 
networks to deliver the highest fidelity possible. As an easy-to-use API, you can 
create lifelike interactions with your users, across many applications and devices 


"voice": { 


"languageCode": "en-US" 
"name": "en-US-Wavenet-D" 
Hide JSON 入 

















图 1-15 ”参数 微调 


文本 转 语音 的 请 求 可 以 来 自 于 任何 已 连接 的 设备 ( 例如 移动 设备 、 汽 车 和 电视 机 等 ) 并 用 于 
客户 服务 、 演 示 教 育 文本 或 动画 内 容 。 





1.2.15 ”语音 转 文本 


有 时 也 需要 将 语音 转换 为 文本 , 也 就 是 语音 识别 问题 。 Google 语音 识别 系统 支持 120 种 语言 
的 转换 。 音 频 可 以 流 式 输入 ， 也 可 以 发 送 预先 录 好 的 视频 。 系 统 可 以 对 不 同 的 类 别 进行 格式 化 ， 
例如 专 有 名 词 和 标点 符号 。 图 1-16 所 示 示 例 来 自 于 Google。 











Language Punctuation Input type 
English (United States) 人 be @ Microphone © File upload 
Request URL 


https://speech .googleapis mnieninienin i 


Request body 


"audio": 1 
"content": "/* Your audio */" 


"omfig"s -1{ 
"enableAutomaticPunctuation": true, 
"encoding": "LINEAR16" 
"languageCode": "en-US", 

"model": "default" 


Hide JSON 信 STARTNOW 











图 1-16 
语音 识别 系统 提供 了 用 于 视频 、 电 话 和 搜索 音频 的 不 同 模型 。 即 使 存在 背景 噪声 ， 该 功能 
可 以 正常 使 用 并 过 滤 不 当 内 容 。 
1.2.16 ”说 话 人 识别 
说 话 人 识别 是 查找 讲话 人 姓名 的 任务 。 通过 音频 片段 ， 系 统 可 以 识别 出 多 个 人 的 声音 。 








1.2.17 “口语 对 话 系统 


口语 对 话 系 统 的 示例 包括 如 Google Voice 、Apple Siri 和 Amazon Alex 等 家 庭 助理 。 聊 天 机 器 
人 、 语音 转 文 本 、 文 本 转 语音 、 说 话 人 识别 和 搜索 之 类 的 所 有 应 用 都 可 以 被 组 合 起 来 , 组 成 口语 
对 话 系统 的 相关 体验 。 
1.2.18 ”其 他 应 用 


NLP 技术 还 有 其 他 一 些 应 用 ， 以 下 列 出 了 其 中 一 部 分 。 


口 新 闻 分 类 : 基于 数 


| 尖 力 








1.3 
口 垃圾 邮件 检测 : 可 以 将 我 们 收 到 的 电子 邮件 分 类 为 垃圾 邮件 或 非 垃圾 邮件 。 
个 类 器 


1 对 新 闻 项 进行 分 类 可 能 会 很 有 帮助 。 
音 数 据 来 标记 相似 的 属性 。 





口 主题 发 现 : 可 以 确定 文章 的 主题 。 


口 文本 生成 : 机 器 生成 的 文本 有 很 多 有 趣 的 应 用 。 
口 语音 翻译 : Skype 已 启动 了 实时 翻译 功能 
技术 。 


口 文本 摘要 : 摘要 任务 ; 

















LE 解 是 针对 给 定 文 章 片段 回答 问题 的 高 中 级 任务 。 


口 成 分 句法 分 析 : 成 分 句法 分 析 通 过 预测 将 句子 的 树 型 组 成 分 为 各 个 成 分 。 
1.3 ”小结 





， 你 将 在 以 后 的 章节 中 学 习 到 
在 下 一 章 中 , 我 们 将 介绍 NLTK 库 的 基础 知识 
本 分 类 任务 。 


窗 盖 基本 的 工程 功能 , 关 





口 识别 作者 、 性 别 或 年 龄 : 可 以 从 一 段 文 本 中 检测 出 作者 的 性 别 和 年 龄 。 同 样 也 可 以 用 语 


涉及 语音 转 文本 、 机 需 翻 译 和 文本 转 
作文 本 作为 输入 并 输出 文本 的 摘要 。 摘 要 通常 比 原 始 文本 要 短 得 多 。 
例如 在 会 议 后 ， 抄 录 的 文本 可 以 被 摘要 并 发 送 给 所 有 人 。 

口 段落 理解 : 段落 到 


在 本 章 中 ， 你 学 习 了 NLP 的 基础 知识 ， 了 解 了 一 些 可 能 会 用 到 NLP 的 应 用 ， 也 看 到 了 云 供 
应 商 提供 的 用 于 访问 NLP 应 用 的 一 些 API。 在 看 完 这 些 云 产 品 后 
各 个 应 用 背后 的 科学 原理 。 





编写 一 个 简单 的 文 


使 用 NLTK 进行 文本 分 类 
和 词性 标注 








自然 语言 工具 包 (Natural Language Toolkit，NLIK ) 是 一 个 用 于 NLP 任务 的 Python 库 , 其 
功能 涉及 分 词 、 分 句 、 执 行进 阶 任务 〈 如 语法 分 析 和 文本 分 类 )， 等 等 。NLTK 提供 了 一 些 针对 
自然 语言 的 模块 和 接口 ， 可 用 于 执行 诸如 文档 主题 识别 、 词 性 标注 、 情 感 分 析 等 任务 。 为 了 实验 
各 种 NLP 任务 , NLTK 还 提供 了 各 种 文本 语料库 的 模块 , 从 基本 的 文本 集合 到 带 标签 的 结构 化 文 
本 (如 WordNet )。 尽管 NLTK 库 提供 了 大 量 API, 但 我 们 仅 介 绍 其 在 实际 NLP 应 用 中 最 为 常见 、 
最 为 重要 的 部 分 。 


本 章 涵盖 以 下 主题 ， 











口 安装 NLTK 及 其 模块 

口 文本 预 处 理 及 探索 性 分 析 
口 词性 标注 

口 训练 影评 的 情感 分 类 器 
口 训练 词 袋 分 类 器 








2.1 安装 NLTK 及 其 模块 


在 开始 示例 之 前 ， 我 们 将 利用 NLTK 库 及 其 Python 依赖 库 准 备 好 系统 环境 。Python 自 带 的 
pip 安装 工具 可 用 来 安装 NLTK 并 可 选 地 安装 numpy， 如 下 所 示 : 




















Sudo pip install -U nltk 
sudo pip install -U numpy 


NLTK 语料库 及 众多 模块 可 以 通过 Python 交互 shell 或 Jupyter Notebook 使 用 通用 的 NLTK 下 
载 器 安装 ， 代 码 如 下 所 示 。 


import nltk 
nltk.download() 
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该 命令 会 打开 如 图 2-1 所 示 的 NLTK 下 载 器 ， 你 可 以 在 其 中 选择 所 需 的 包 或 集合 














Identifier ji Status 

averaged_perceptron tagg Averaged Perceptron Tagger installed 

8.2 MB not insta 
basque_grammars Grammars for Basque 4.6 KB not insta 
bllip_wsj_no_aux BLLIP Parser: WSJ Model 23.4 MB not insta 
book_grammars Grammars from NLTK Book 8.9 KB not insta 
large_grammars Large context-free and feature-based ee for parser co 277.1 KB not insta 
maxent_treebank_pos_tagg Teebank Part of FE Tagger (Maximum er py) not insta 
moses_sample Moses Sample Models - not insta 
mwa_ppdb The monolingual word aligner (Sultan et al. 2015) subset of t a not insta 
perluniprops perluniprops: Index of Unicode Version 7.0.0 character prope a not insta 
BOE test EST Stemmer Test Eiles not insta 
rslp RSLP Stemmer (Reoved or de Sufixos da Lingua Portuguesa)l 3.7 KB not insta led 
sample_grammars Sample Grammars 19.8 KB not installed 
snowball_data Snowball Data 6.5 MB not installed 

Download Refresh 





Server Index: [https ;/ /raw.githubusercontent memo gt 
Download Directory: di 


























图 2-1 


正如 图 2-1 所 示 ， 特 殊 集 合 、 文 本 语料库 、 pe td 。 我们 导航 
到 stopwords 并 安装 ， 以 备 之 后 使 用 。 表 2-1 展示 了 本 章 样 例 所 需 安 装 的 模块 。 


表 2-1 
























































No. 包 名 描述 
1 brown Brown 文本 语料库 
2 gutenberg Gutenberg 文本 语料库 
3 max_ne_chunker 用 于 文本 分 块 的 模块 
4 movie_reviews 电影 评论 情感 极 性 数据 
5 product_reviews_1 基本 电影 评论 语料库 
6 punkt 分 词 、 分 句 模 块 
7 treebank Peen Treebank 数据 集 样 例 
8 twitter_samples Twitter 消息 样 例 
9 universal_tagset 通用 词性 标注 映射 
10 webtext Web 文本 语料库 
11 wordnet WordNet 语料库 
12 words 单词 列表 
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2.2 文本 预 处 理 及 探索 性 分 析 


我 们 将 首先 通过 一 些 基 本 的 NLP 实战 任务 〈 如 文本 预 处 理 及 探索 性 分 析 ) 来 对 于 NLTK 进 
行 概述 。 文本 预 处 理 步骤 涉及 如 分 词 、 词 干 提取 和 去 除 停 用 词 之 类 的 任务 。 对 准备 好 的 文本 数据 
进行 探索 性 分 析 可 以 了 解 其 主要 特征 ， 包 括 文 本 的 主题 和 词 频 分 布 。 


2.2.1 分 词 


单词 词 元 ( token ) 是 任何 NLP 任务 都 会 涉及 的 文本 基本 单元 。 处 理 文本 时 ， 第 一 步 就 是 将 
文本 拆 分 为 词 元 。NLTK 为 此 提供 了 不 同类 型 的 分 词 器 。 我们 将 研究 如 何 对 来 自 NLTK 中 Twitter 
样 例 语料库 的 Twitter 评论 进行 分 词 。 从 此 刻 开 始 ， 所 有 演示 代码 都 可 以 通过 在 命令 行 上 使 用 标 
准 Python 解释 器 来 运行 : 

>>> import nltk 

>>> from nltk.corpus import twitter samples as ts 

>>> ts.fileids() 

['negative tweets.json', 'positive tweets.json', 'tweets.20150430- 

223406.json'] 

>>> samples tw = ts.strings('positive tweets.json') 

>>> samples_ tw[100] 





















































"Qmetalgear jp @Kojima Hideo I want you're T-shirts ! They are so cool ! :D" 

>>> from nltk.tokenize import word tokenize as wtoken 

>>> wtoken(samples tw[100]) 

['@', 'metalgear jp', '@', 'Kojima Hideo', 'I', 'want', 'you', "'re", 'T-shirts', '!' 
'They', 'are', 'so', 'cool', '!', ':', 'D'] 


了 





为 实现 基于 标点 和 空格 的 文本 分 割 ，NLIK 也 提供 了 能 同时 标注 出 标点 符号 的 worapunet_ 
tokenize 分 词 器 。 这 一 步 又 可 通过 如 下 代码 段 说 明 : 


>>> Samples_tw[100] 




















"@Qmetalgear jp @Kojima Hideo I want you're T-shirts ! They are so cool ! :D" 
>>>from nltk.tokenize import wordpunct tokenize 

>>>wordpunct_ tokenize(samples tw[100]) 

['@', 'metalgear jp', '@', 'Kojima Hideo', 'I', 'want', 'you', "'", 're', ‘'T', '-' 
vshirtear,. Ly LThey'y are "Do, "GOOLS ;ily Te LD 


正如 你 所 见 ， 与 word_tokenize 分 词 顺 不 同 的 是 ，wordqpunct_tokenize 分 词 吉 能 将 单 
词 之 间 的 连 字符 〈- ) 和 其 他 标点 符号 一 样 标注 出 来 。 我 们 也 可 以 使 用 NLTK 的 正则 表达 式 分 词 
器 实现 自 定 义 分 词 ， 如 以 下 代码 所 示 : 


>>> from nltk import zegexp_tokenize 

>>> patn = '\w+' 

>>> regexp_ tokenize(samples tw[100],patn) 

['metalgear jp', 'Kojima Hideo', 'I', 'want', 'you', 're', ‘'T', 
'are', 'so', 'cool', 'D'] 


在 先前 的 代码 中 ， 我 们 使 用 了 一 个 简单 的 正则 表达 式 ( regexp ) 去 匹配 只 包含 字母 和 数字 
字符 的 单词 。 在 下 面 的 另 一 个 例子 中 ， 我 们 将 使 用 正则 表达 式 去 匹配 单词 和 部 分 标点 符号 。 








'shirts', 'They', 
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>>> patn = '\w+|[!,\-,]' 

>>> regexp_tokenize(samples_ tw[100],patn) 

['metalgear jp', 'Kojima Hideo', 'I', 'want', 'you', 're', 'T', '-', 'shirts', '!', 
'They', 'are', 'so', 'cool', '!', 'D'] 


通过 改变 regexp 的 模式 使 其 包含 标点 符号 , 我们 就 可 以 在 结果 中 标注 出 这 些 标点 符号 在 Ee 
Python 的 结果 列表 中 ， 可 以 很 明显 地 看 到 词 元 ! 和 -都 被 展示 了 出 来 。 








2.2.2 ” 词 干 提取 


词 干 提取 是 一 种 文本 预 处 理 任 务 ， 将 单词 的 相关 或 相似 变 体 ( 例如 walking ) 转换 为 其 基本 
形式 (例如 walk )， 因 为 它们 具有 相同 的 含义 。 词 干 提取 转换 的 基本 操作 之 一 是 将 单词 的 复数 形 
式 还 原 为 单数 形式 ， 例 如 将 apples 还 原 为 apple。 尽 管 这 是 一 个 非常 简单 的 转换 ， 但 确实 存在 更 



































加 复杂 的 操作 。 我 们 将 使 用 Martin Porter 提出 的 流行 的 Porter 词 干 提取 器 来 说 明 这 一 点 ， 正 如 以 
下 代码 所 示 : 


>>> import nltk 

>>> from nltk.stem import PorterStemmer 

>>> stemming = PorterStemmer() 

>>> stemming.stem("enjoying") 

"enJjoy' 

>>> stemming.stem("enjoys") 

"enJjoy' 

>>> stemming.stem("enjoyable") 

"enJjoy' 

本 例 中 , 词 干 提取 将 单词 enjoy 的 不 同 动词 形式 ( enjoying 和 enjoy ) 和 形容 词 形式 ( enjoyable ) 
简化 为 基本 形式 。 词 干 提取 器 所 使 用 的 Porter 算 法 利用 各 种 特定 语言 的 规则 ( 本 例 中 为 英语 ) 提 
取 词 干 单词 。 如 上 述 示 例 代 码 所 示 ， 一 个 规则 是 从 单词 中 删除 诸如 ing 之 类 的 后 级 。 但 词 干 提取 
所 生成 的 并 不 总 是 单词 ， 如 下 例 所 示 : 

>>> stemmer.stem("variation") 

'variat' 
>>> stemmer.stem("variate") 
'variat' 

在 此 , variat 并 不 是 英文 单词 。 对 于 法 语 、 西 班 牙 语 和 德语 等 其 他 语言 , Nltk.stem.snowball 
模块 也 提供 了 snowball 词 干 提取 器 。 它 是 一 种 词 干 提取 语言 ,可 用 于 在 不 同 语言 中 创建 词 干 提 
取 的 标准 规则 。 我 们 可 以 使 用 以 下 正则 表达 式 创 建 自 定义 的 词 干 提取 器 ， 就 像 对 分 词 器 所 做 的 
那样 ; 

>>> regexp_stemmer = RegexpStemmer ("ables$|ings$",min=4) 

>>> regexp_ stemmer.stem("flyable") 
‘fly' 


>>> regexp_stemmer.stem("flying") 
‘fly' 
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正则 模式 ableslings 去 除了 单词 中 可 能 出 现 的 后 缀 able 和 ing, 而 min 则 限定 了 提取 词 干 
单词 的 最 小 长 度 。 





2.2.3 ”去 除 停 用 词 


常用 英文 单词 (例如 the、is 和 he 等 ) 通常 称 为 停 用 词 。 其 他 语言 也 有 类 似 的 常用 词 ， 同 属 
这 一 类 别 。 去 除 停 用 词 是 NLP 应 用 中 另 一 个 常见 的 预 处 理 步 又。 在 此 步骤 中 ， 我 们 将 删除 那些 
对 文档 没有 任何 意义 的 词 , 例如 语法 冠 词 和 代词 。 诸 如 a、an、he 和 her 等 单词 都 是 需要 去 除 的 。 
停 用 词 在 整个 文本 中 频繁 出 现 ， 但 它们 本 身 可 能 不 会 对 NLP 任务 ( 例如 文本 分 类 或 搜索 ) 产生 
任何 影响 。 让 我 们 通过 以 下 代码 看 一 下 英文 中 停 用 词 的 示例 : 

>>> from nltk.corpus import stopwords 

>>> sw_l1 = stopwords.words('english') 

>>> sw_1[20:40] 

['himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 

'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 

'who', 'whom', 'this'] 

上 述 代 码 只 打印 了 前 20 个 词 项 ， 所 以 输出 只 显示 了 英文 中 的 部 分 停 用 词 示例 。 在 以 下 代码 
中 ， 我 们 会 研究 这 些 词 是 如 何 被 从 文本 中 移 除 的 : 

>> example _ text = "This is an example sentence to test stopwords" 

>>> example text without stopwords=[word for word in example text.split() 

if word not in sw 1] 

>>> example text without stopwords 

['This', 'example', 'sentence', 'test', 'stopwords'] 

如 你 所 见 ， 有 些 词 (如 an、is 和 to ) 已 经 被 移 除了 。 正 如 例子 中 那样 ， 除 英语 外 ，NLTK 还 
为 21 种 语言 提供 了 停 用 词语 料 库 。 在 以 下 示例 中 ， 我 们 使 用 代码 来 看 看 在 特定 文本 语料库 中 停 
用 词 所 占 的 比例 : 


>> from nltk.corpus :import gutenberg 

>>> words_in hamlet = gutenberg.words('shakespeare-hamlet .txt') 

>>> words_in hamlet without sw = [word for word in words_ in hamlet if word 
not :in sw 1] 

>>> len(words_ in hamlet without sw)*100.0/len(words_ in hamlet) 
69.26124197002142 


以 上 示例 表明 ,在 莎士比亚 的 《哈姆雷特 》 中 , 文本 的 很 大 一 部 分 ( 约 30% ) 是 由 停 用 词组 
成 的 。 在 许多 NLP 任务 中 ， 停 用 词 并 不 重要 ， 所 以 可 以 在 预 处 理 过 程 中 移 除 。 










































































2.2.4 探索 性 分 析 


获得 词 元 数据 后 ,常用 的 基本 分 析 之 一 是 对 单词 或 词 元 及 其 在 文档 中 的 分 布 进行 计数 ,从 而 
更 多 地 了 解 文档 中 的 主要 话题 。 让 我 们 从 分 析 NLTK 自 带 的 网 络 文本 数据 开始 吧 : 
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>>> import nltk 

>>> from nltk.corpus import webtext 

>>> webtext_sentences = webtext.sents('firefox.txt') 
>>> webtext_ words = webtext .words('firefox.txt') 

>>> len(webtext_sentences) 

1142 

>>> len(webtext_ words) 

102457 


请 注意 ， 尽 管 网 络 文本 数据 也 包含 其 他 数据 〈 例如 广告 和 电影 的 台 本 )， 但 我 们 仅 加 载 与 
Firefox 论坛 相关 的 文本 ( firefox.txt )。 先 前 的 代码 输出 分 别 给 出 了 句子 和 单词 在 整个 文本 语料库 
中 的 数量 。 我 们 还 可 以 通过 将 词汇 表 传递 到 集合 中 来 获得 词汇 表 的 大 小 ， 如 以 下 代码 所 示 : 

>>> Vocabulary = set (webtext words) 


>>> len(vocabulary) 
8296 


为 了 获得 文本 的 频数 分 布 , 可 以 利用 nltk .FreqDist () 函数 来 获取 文本 中 使 用 最 为 频繁 的 
单词 。 这 可 以 提供 关于 文本 数据 主旨 的 大 致 思路 ， 如 以 下 代码 所 示 : 

>>> frequency dist = nltk.FreqDist (webtext words) 

>>> sorted(frequency dist,key=frequency dist. getitem  ， 

reverse=True)[0:30] 

Dy insy “tors nip the, Sny mot", cr “when oniy “vary. Tlie"y 

't', 'and', 'of', '(', 'page', 'for', 'with', ')', 'window', 'Firefox', 

'does', 'from', 'open', ':', 'menu', 'should', 'bar', 'tab'] 

以 上 结果 给 出 了 文本 中 使 用 最 为 频繁 的 30 个 单词 ， 其 中 一 些 停 用 词 (例如 the ) 显然 经 常 在 
英语 中 出 现 ， 但 是 仍 可 以 看 到 诸如 Firefox 之 类 的 词 也 出 现 了 ， 这 是 因为 我 们 用 于 分 析 的 文本 来 
自 有 关 Firefox 浏览 器 的 论坛 。 我 们 还 可 以 通过 以 下 代码 查看 字母 长 度 大 于 3 的 单词 的 频数 分 布 
情况 ， 这 将 排除 诸如 and 和 is 之 类 的 单词 : 

>>> large words = dict([(k,v) for K,V in frequency_dist.items() if 

len(k)>3]) 


>>> frequency_dist = nltk.FreqDist (large words) 
>>> frequency_dist.plot(50,cumulative=False) 


此 处 , 我 们 筛选 出 了 所 有 字母 长 度 大 于 3 的 单词 并 创建 了 词 频 元 组 的 字典 。 该 字典 将 被 传递 
到 NLTK 频数 分 布 画 图 工具 中 。 我 们 现在 可 以 看 到 单词 的 频数 分 布 图 如 图 2-2 所 示 。 
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2-2 显示 了 排名 前 50 的 单词 的 频数 分 布 。 根 据 其 分 布 情况 , 我 们 可 以 生成 一 个 词 云 (word 
cloud ) 以 直观 、 可 视 化 地 看 到 文本 中 单词 的 使 用 情况 。 为 此 ， 必 须 安装 Python 中 的 wordcloud 


安装 代码 如 下 所 示 : 


pip install wordcloud 


包 ， 














以 上 代码 能 够 实现 wordcloud 包 


的 安装 。 该 包 将 单词 随机 地 放置 在 幕布 上 ， 单 词 大 小 与 其 


在 文本 中 的 频数 成 正比 ， 以 此 生成 词 云 。 我 们 现在 来 看 看 展示 词 云 的 代码 ， 如 下 所 示 : 


from wordcloud import WordCloud 
wcloud 
import matplotlib.pyplot as plt 
plt.imshow(wcloud, interpolation='bilinear') 
plt .axis("off") 
5, 399.5, 199.5, 
plt.show() 


>>> 
(-0. 
>>> 


-0.5) 








在 以 上 代码 中 ,我 们 输入 了 先前 通过 NLTK 库 获 得 的 单词 频数 分 布 ， 对 应 生成 的 词 云 如 图 2-3 














所 示 。 


WordCloud() .generate from fredquencies (fredquency dist) 
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图 2-3 


基于 先前 有 关 停 用 词 的 示例 , 我 们 来 看 看 移 除 停 用 词 后 词 频 分 布 是 如 何 改变 的 。 当 移 除 停 用 
词 后 ， 词 云 看 上 去 与 文本 的 主题 更 为 契合 ， 如 图 2-4 所 示 。 
































图 2-4 
在 以 上 词 云图 中 ，when、with 和 from 等 常用 单词 都 被 移 除 了 。 可 以 通过 以 下 代码 检查 单词 




















频数 分 布 词典 对 此 进行 验证 : 


>>> words_ in webtext without sw = [word for word in webtext words if word 
not in sw 1] 

>>> 'when' in words in webtext without sw 

False 

>>> 'from' in words in webtext without_ sw 

False 


同 理 ， 对 于 在 去 除 停 用 词 之 前 云图 中 出 现 的 其 他 单词 ， 我 们 还 可 以 检查 其 在 words_in_ 
webtext_withour_sw 频数 分 布 字典 中 是 否 仍 然 存 在 。 
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2.3 词性 标注 
我 们 已 经 分 析 了 一 些 基本 的 NLP 预 处 理 任务 ， 例 如 分 词 、 词 干 提取 和 移 除 停 用 词 等 ， 也 控 








索 了 如 何 确定 文本 语料库 中 单词 的 分 布 并 进行 可 视 化 。 本 节 将 深入 探索 NLIK， 了 解 其 词性 标注 


功能 。 








2.3.1 词性 标注 定义 
词性 标注 将 句子 中 的 单词 以 不 同 语义 功能 或 语法 功能 进行 分 类 。 在 英语 中 , 主要 的 词性 为 名 





词 、 代 词 、 


容 词 、 动 词 、 副 词 、 介 词 、 限 定 词 和 连词 ， 而 词性 标注 正 是 为 文本 中 的 每 个 单词 或 








词 元 附加 这 些 类 别 之 一 。NLTK 提供 了 标注 好 的 文本 语料库 和 一 组 词性 训练 器 ， 用 以 创建 自 定义 
的 标注 器 。NLTK 中 最 常见 的 标注 数据 集 是 Penn Treebank 和 Brown Corpus， 前 者 由 经 过 分 析 的 
期 刊 日 志 、 电 话 交谈 等 文本 集合 组 成 ， 而 后 者 则 由 15 种 不 同类 别 ( 科学、 政治、 宗教 和 体育 等 ) 


的 文 曹 组 成 。 这 些 文本 数据 提供 了 细 粒 度 标注 ， 然 而 许多 应 用 可 能 只 需要 以 下 的 通用 标注 集 。 


口 VERB: 动词 (所 有 时 态 和 方式 ) 

口 NOUN: 名 词 (普通 名 词 、 专 有 名 词 ) 
口 PRON: 代词 

口 ADJ : 
口 ADV: 
口 ADP : 


口 DET 








口 PRT 























口 NUM : 
: 小 品 词 或 其 他 功能 词 

口 X-other: 外 来 词 、 错 别 字 、 缩 写 
口 . : 标点 符号 


NLTK 还 提供 了 从 带 标注 语料库 ( 例如 Brown Corpus ) 到 通用 标签 的 映射 , 如 以 下 代码 所 示 。 








Wl 




















形容 词 
副词 
介词 〈 前 置 词 、 后 置 词 ) 











口 CONJ: 连词 
: 限定 词 


基数 























与 通用 标签 集 相 比 ，Brown Corpus 的 词性 标注 粒度 更 细 。 例 如 ，VvBD 标注 (用 于 过 去 式 动词 ) 和 
VB 标注 ( 用 于 基本 形式 动词 ) 会 被 映射 到 通用 标注 集中 的 VERB: 
>>> from nltk.corpus import brown 


>>> brown.tagged words()[30:40] 
[('term-end', 'NN'), ('presentments', 'NNS'), ('that', 'CS'), ('the', 


'AT'), 
(vv 











('City', 'NN-TL'), ('Executive', 'JJ-TL'), ('Committee', 'NN-TL'), 
1 '), ('which', 'WDT'), ('had', 'HVD')] 


>>> brown.tagged words (tagset='universal')[30:40] 
[('term-end', 'NOUN'), ('presentments', 'NOUN'), ('that', 'ADP'), ('the', 


'DET'), 
(Ts 


('City', 'NOUN'), ('Executive', 'ADJ'), ('Committee', 'NOUN'), 


.'), ('which', 'DET'), ('had', 'VERB')] 
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这 里 ， 你 可 以 看 到 City 一 词 被 标注 为 NP-TL， 表 示 它 是 在 Brown Corpus 中 标题 (TL ) 上 下 
文 里 出 现 的 专 有 名 词 (NP )。 它 被 映射 到 通用 标注 集中 的 NOUN。 有 了 时 一 些 NLP 任务 可 能 需要 这 
些 更 精细 粒度 的 类 别 而 非常 规 的 通用 标注 。 





2.3.2 ”词性 标注 的 应 用 


词性 标注 可 在 命名 实体 识别 (NER )、 情 感 分 析 、 问 答 和 单词 消 歧 中 得 到 应 用 。 我 们 将 在 以 
下 代码 中 查看 单词 歧义 消除 的 示例 。 在 句子 “Ileftthe room” 和 “Left oftheroom” 中 ，left 一 词 
表达 了 不 同 的 含义 , 而 词性 标注 器 将 有 助 于 区 分 其 意义 。 现 在 我 们 将 研究 如 何 标 注 出 同一 单词 的 
两 种 不 同 用 法 : 


>>> import nltk 

>>> 七 ext1 = nltk.word tokenize("I left the room") 

>>> text2 = nltk.word tokenize("Left of the room") 

>>> nltk.pos_ tag(textl,tagset='universal') 

[('I', 'PRON'), ('left', 'VERB'), ('the', 'DET'), ('room', 'NOUN')] 
>>> nltk.pos_ tag(text2, tagset='universal') 

[('Left', 'NOUN'), ('of', 'ADP'), ('the', 'DET'), ('room', 'NOUN')] 


























单词 left 在 第 一 个 示例 中 是 动词 ， 而 在 第 二 个 示例 中 则 是 名 词 。 在 NER 中 ， 词 性 标注 有 助 
于 基于 标签 完成 人 员 、 地 点 或 位 置 的 识别 。NLTK 内 置 了 一 个 训练 好 的 分 类 器 用 以 识别 文本 中 的 
实体 。 该 分 类 器 可 以 在 经 过 词性 标注 的 句子 上 运行 ， 如 以 下 代码 所 示 : 


>>> import nltk 




















>>> example sent = nltk.word tokenize("The company is located in South 
Africa") 

>>> example_sent 

['The', 'company', 'is', 'located', 'in', 'South', 'Africa'] 

>>> tagged sent = nltk.pos_ tag(example sent) 

>>> tagged sent 

[('The', 'DT'), ('company', 'NN'), ('is', 'VBZ'), ('located', 'VBN'), 
('in', 'IN'), ('South', 'NNP'), ('Africa', 'NNP')] 

>>> nltk.ne chunk (tagged sent) 

Tree('S', [('The', 'DT'), ('company', 'NN'), ('is', 'VBZ'), ('located', 
'VBN'), ('in', 'IN'), Tree('GPE', [('South', 'NNP'), ('Africa', 'NNP')])]) 





在 示例 语句 中 , ne_chunk () 函数 使 用 训练 好 的 命名 实体 划分 器 将 south Africa 标注 为 地 
缘 政 治 实体 (GPE )。 到 目前 为 止 ， 我 们 已 经 看 到 了 使 用 NLTK 内 置 标注 器 的 示例 ， 而 在 下 一 六 
中 ,我 们 将 研究 如 何 开发 自 定义 词性 标注 册 。 

















2.3.3 训练 词性 标注 器 


现在 ， 我 们 将 使 用 NLTK 的 标注 集 语 料 库 和 sklearn 随机 森林 机 器 学 习 模型 来 训练 自己 的 词 
性 标注 器 。 本 节 的 完整 Jupyter Notebook 文件 可 在 本 书 代码 库 中 找到 ( Chapter02/01_example. 
ipynb )。 整 个 过 程 将 是 一 个 分 类 任务 ， 因 为 我 们 需要 预测 句子 中 给 定单 词 的 词性 标签 。 我 们 将 使 
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用 带 有 词性 标注 的 NLTK treebank 数据 集 作 为 训练 数据 或 标注 数据 ， 并 提取 单词 的 前 级 、 后 级 以 














及 文本 中 的 前 序 单 词 和 相 邻 单词 作为 训练 的 特征 。 辽 此 特征 对 于 将 单词 划分 为 不 同 词性 具有 良好 
的 指示 效果 。 以 下 代码 显示 了 特征 的 提取 过 程 : 



































def sentence_ features (st, ix): 
[eB i ee 
dL ft SwoEa ,Sr EL] 
d fti[l "dst. frnom finet"l T= 0 
d_ft['dist_from last'] = len(st) - ix 
d_ft['capitalized'] = st[ix] [0] .upper() == st[ix] [0] 
| 
[0 
ft "Drefl tN] 
全 [1 
ft E22 
dL ft SVEFTRIN] SE Be [=3] 
d_ft['prev word'] = '' if ix==0 else st[ix-1] 
d_ft['next word'] = '' if ix==(len(st)-1) else st[ix+1] 
d_ft['numeric'] = st[ix].isdigit() 
return d_ft 





困 数 statement_features () 将 文本 输入 转换 为 特征 字典 ga_ft。 每 个 句子 以 Python 列表 








的 形式 与 当前 单词 的 索引 一 起 被 传人 ， 以 提取 该 单词 的 特征 ， 其 中 索引 ix 用 于 获取 相 邻 单词 的 
村 征 以 及 单词 的 前 绥 / 后 缀 。 在 后 续 实 例 中 ， 我 们 将 在 训练 后 查看 这 些 特 征 的 重要 性 。 现 在 我 们 
将 使 用 上 一 小 节 所 说 带 有 通用 标注 的 treebank 标注 句子 作为 标注 数据 或 训练 数据 : 











taggedq_sentences = nltk.corpus.treebank.tagged_ sents (tagset='universal') 


为 简便 起 见 ， 我 们 使 用 了 通用 标注 ， 如 传递 给 tags_sents 函数 中 名 为 tagset 的 参数 。 








除了 通用 标注 外 , 还 可 以 使 用 细 粒 度 的 treebank 词性 标注 , 而 这 将 导致 大 量 标签 的 出 现 。 现在 


我 人 








] 将 为 语料库 中 的 每 个 标注 语句 提取 特征 并 进行 训练 , 所 提取 的 特征 存储 在 变量 x 中 ， 而 词性 








标注 或 者 标签 存储 在 变量 y 中 。 特 征 提 取 过 程 如 以 下 代码 所 示 : 


def ext_ft(tg_ sent): 
sent, tag = [], [] 


for tg in tg_sent: 
for index in range(len (tg)): 
sent.append(sentence_ features (get_untagged_ sentence (tg), 
index)) 
tag.append (tg[index] [11]) 


return Sent; tag 


X,y = ext_ft(tagged sentences) 


在 sklearn 库 中 , 我 们 利用 Dictvectorizer 将 特征 值 字典 转换 为 训练 向 量 或 实例 。 应 当 注 意 




















的 是 ， 对 于 字符 串 类 型 的 值 ，Dictvectorizer 将 其 转换 为 独 热 编码 向 量 。 如 果 suffix3 的 可 能 











特 生 


E 取 值 的 数量 为 S0， 则 输出 中 将 有 50 个 特征。 我 们 将 使 用 以 下 代码 来 应 用 DictVectorizer: 
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n_sample = 50000 

dict_vectorizer = DictVectorizer (sparse=False) 

XxX_transformed = dict_vectorizer.fit_ transform(X[0:n_sample]) 
y_sampled = y[0:n_sample!l] 


本 例 使 用 了 大 约 50 000 个 句子 的 样本 量 以 加 快 训练 速度 ， 这 些 训练 实例 进一步 分 为 80% 的 
训练 集 和 20% 测 试 集 ( 请 参阅 Notebook )。 本 例 使 用 sklearn 的 RandomForestclassifier 集 
成 分 类 器 作为 词性 标注 模型 ， 如 以 下 代码 所 示 : 


rf = RandomForestClassifier(n jobs=4) 
rf.fit(x train,y_train) 


经 过 训练 后 ， 我 们 可 以 使 用 示例 句子 来 验证 词性 标注 册 的 效果 。 在 将 例句 传 给 predict () 
函数 之 前 ， 我 们 将 使 用 用 于 NLTK 标注 数据 的 函数 ( sentence_features () ) 来 提取 特征 ， 如 
以 下 代码 所 示 : 


def predict pos_tags (sentence): 

tagged_sentence = |[] 

features = [sentence features(sentence, index) for index in 
range (len(sentence))] 

features = dict_ vectorizer.transform(features) 

tags = rf.predict (features) 

return zip(sentence, tags) 


使 用 sentence_features () 函数 将 sentence 列表 变量 中 的 单词 转换 为 相应 的 特征 ， 并 
使 用 先前 训练 好 的 dict_vectorizer 对 从 函数 提取 的 特征 字典 进行 条 量化 处 理 : 
test_sentence = "This is a simple POS tagger" 


for tagged in predict pos_ tags (test_sentence.split()): 
print (tagged) 


我 们 将 测试 语句 作为 单词 列表 ,传递 给 predict_pos_tags 函数 ， 输 出 句子 中 每 个 单词 的 
词性 。 以 下 输出 显示 了 例句 词性 标注 结果 : 


人 内 站 汪 BR) 
VER 
1 
'simple', 'ADJ') 
'POS', 'NOUN') 
'tagger', 'NOUN') 


例句 的 输出 看 起 来 很 合理 : 它 可 以 识别 句子 中 的 限定 词 、 动 词 、 形 容 词 和 名 词 。 为 了 评估 标 
注 避 的 准确 率 ， 我们 可 以 使 用 以 下 代码 来 预测 测试 数据 的 词性 标注 : 


predictions = rf.predict (Xx_test) 
accuracy_score(y_test,predictions) 






































Output 
0.94520000000000004 
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个 词 


这 些 


预测 的 准确 率 大 约 为 94%, 这 看 起 来 是 合理 的 。 我 们 还 将 查看 混淆 和 矩阵 以 观察 标注 器 对 于 每 
性 标签 的 性 能 ， 这 将 利用 sklearn 中 的 confusion_matrix 函数 ,代码 如 下 所 示 : 


conft matrix = confusion matrix(y_ test, Predictions ) 
DLLt.figure(Eigsize=(10,10)) 
D1LL.xicks(npb.arange(len(rft.classes_))，,rf.classes_) 
plt.yticks (np.arange (len(rf.classes_ )),rf.classes_ ) 
plt.imshow(conf_ matrix,cmap=plt.cm.Blues) 
plt.colorbar () 


在 用 于 绘制 混淆 矩阵 的 代码 中 , 我 们 使 用 了 来 自 随机 森林 分 类 器 中 的 类 作为 x 标签 和 y 标签 。 
标签 是 训练 数据 的 词性 标注 。 图 2-5 是 混淆 和 矩阵 的 图 像 表 示 。 
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图 2-5 
结果 表明 标注 絮 对 于 句子 中 名 词 、 动 词 和 限定 词 方面 的 标注 表现 相对 较 好 ,这 在 图 中 深 色 部 





分 得 到 了 体现 。 现 在 ,我 们 将 通过 以 下 代码 查看 模型 的 主要 特征 : 


feature list = 

Zip(dict_ vectorizer.get_ feature names(),rf.feature importances_) 
sorted_features = sorted(feature list,key=lambda x: x[1], reverse=True) 
print (sorted_features[0:20]) 
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随机 森林 模型 中 特征 的 权重 存储 在 Python 的 feature_importances 列表 中 。 我 们 将 按照 
特征 权重 对 该 列表 进行 降序 排列 ， 并 使 用 先前 的 代码 打印 前 20 个 特征 ， 结 果 如 下 所 示 : 














Output: 

[('next_word=', 0.020920214730751722), ('capitalized', 
0.01772036411509819)， ('prefix1l=,', 0.017100349286406635), ('suffixl=,', 
0.013300188138108692),， ('suffix2=ed', 0.012324641839199037)，, ('prefix1l=*', 
0.01184006667636649)， ('suffix2=he', 0.010212280707210959)，,， ('prefix2=th', 
0.01012750927310713),， ('suffix2=to', 0.010110760622078928), ('prefix3=the', 
0.0094462675592230805),， ('dist_from first', 0.0093968467476374141)， 
('suffixl=f', 0.0092678798994399649)， ('word=the', 0.0091584437614083847)， 
CNALISt fFOm 1aSt "G0 00879096547549034190)s. ("HIEefrX2=t0", 
0.0086095477647111125),， ('suffixl=d', 0.0082316431932524976),， ('word=a', 
0.0077318882551946199)， ('prefix2=an', 0.0074132280379715434)， 
('suffixl=s', 0.0067561700034315057), ('word=and', 0.0065749584774608179)] 














可 以 看 出 某 些 后 级 特征 获得 了 更 高 的 权重 得 分 , 例如 以 ed 结尾 的 单词 通常 是 过 去 式 的 动词 ， 
还 可 以 发 现 一 些 标点 符号 (例如 逗号 ) 也 会 影响 标注 。 尺 管 词性 标注 也 是 一 种 文本 分 类 , 但 接 下 
来 我 们 将 继续 研究 另 一 种 常见 的 NLP 任务 一 一 情感 分 类 。 














2.4 训练 影评 情感 分 类 器 


现在 我 们 将 对 NLTK 中 的 影评 语料库 进行 情感 分 类 。 该 示例 的 完整 Jupyter Notebook 文件 可 
以 在 本 书 代 码 库 中 找到 ( Chapter02/02_example.ipynb )。 


首先 我 们 将 根据 情感 类 别 〈 正面 或 负面 ) 使 用 以 下 代码 加 载 电 影评 论 : 


cats = movie reviews.categories() 
reviews = [] 
for cat in cats: 
for fid in movie reviews.fileids (cat): 
review = (list (movie reviews.words (fid)),cat) 
reviews.append (review) 
random.shuffle (reviews) 


category () 函数 将 返回 pos 或 neg, 分 别 代表 正面 或 负面 情绪 。 这 两 个 类 别 中 分 别 有 1000 
条 评论 ， 我 们 将 使 用 Python 中 的 random.shuffle() 函数 将 它们 由 分 组 顺序 混 洗 为 随机 顺序 。 
接 下 来 使 用 以 下 代码 选择 评论 中 的 重点 词 ， 并 将 其 用 作 特 征 工程 或 提取 过 程 的 基础 词汇 : 

all_ wd_in reviews = nltk.FreqDist (wd.lower() for wd in 

movie_reviews.words()) 


top_wd_in reviews = [list(wds) for wds in 
Zip(*all_wd_in reviews.most_common(2000))][0] 


我 们 在 影评 中 选择 了 出 现 最 为 频繁 的 前 2000 个 单词 进行 特征 生成 。 根 据 评 论 中 是 否 存在 这 
些 词 生成 二 进 制 特征 ， 因 此 每 个 训练 集 将 具有 2000 个 特征 : 当 单 词 在 影评 中 出 现时 ， 对 应 特征 
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设 为 1， 否则 设 为 0。 


def ext_ft(review,top_words): 
review wds = set (review) 
f= 
for wd in top_words: 
ft['word present ({})'.format (wd)] = (wd in review_wds) 
return ft 


每 条 电影 评论 都 将 被 传递 给 sxt_ft () 函数 并 由 该 函数 返回 包含 二 进 制 特征 的 字典 , 具体 代 
码 如 下 所 示 : 


featuresets = [(ext_ft(d,top wd in reviews), c) for (d,c) in reviews] 
train_set, test_set = featuresets[200:], featuresets[:200 


我 们 将 标注 好 的 数据 按照 80% 和 20% 的 比例 分 为 训练 集 和 测试 集 。 作为 初始 测试 , 我 们 将 使 
用 NLTK 自 带 的 简单 的 朴素 贝 叶 斯 分 类 器 ( naive Bayes classifier )， 如 以 下 代码 所 示 : 


classifier = nltk.NaiveBayesClassifier.train(train set) 
print (nltk.classify.accuracy (classifier, test_set)) 





























Output 
0.805 


即使 使 用 简单 的 朴素 贝 叶 斯 分 类 器 , 仍 可 以 达到 80% 的 准确 率 。 同 时 , 我 们 还 可 以 看 到 分 类 
模型 所 学 习 到 的 信息 量 最 为 丰富 的 特征 。 这 里 使 用 以 下 代码 展示 对 应 的 前 20 个 特征 : 

classifier.show most_informative_features(10) 

show_most_informative_features 函数 以 输出 优先 寺 征 的 数量 为 参数 并 输出 相关 村 征 ， 
结果 如 下 所 示 : 


Output: 

















Most Informative Features 








word_present (seagal) = True neg : pos = 1 1.0 
word_present (outstanding) = True pos : neg = :3 1.0 
word_present (mulan) = True pos : neg = a | 
word_present (wonderfully) = True pos : neg 入 5 ED 
word_present (damon) = True pos : neg 一 rp 1.0 
word_present (ridiculous) = True neg : pos 全 Ss6 FE; 
word_ present (awful) = True neg : pos 二 3 1.0 
Wore Present ene) = True neg : pos 一 与 1.0 
word_ present (era) = True pos : neg = 三 Fa 
word_ present (waste) = True neg : pos re 1.0 





模型 学 到 的 waste 、awful 和 ridiculous 等 词语 看 起 来 传达 了 负面 的 含义 ， 而 outstanding、 
wonderfully 和 era 等 词语 传达 了 积极 的 情感 。 


现在 ， 我 们 将 使 用 sklearn 中 的 随机 森林 分 类 咒 模 型 及 影评 数据 进行 评估 。 但 是 在 此 之 前 ， 
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要 使 用 Dictvectorizer 对 特征 进行 向 量化 , 就 像 我 们 在 上 一 节 中 训练 词性 标注 册 所 做 的 那样 ， 
如 以 下 代码 所 示 : 


d_vect=None 

def get_train test(tr_ set,te set): 
global qd_vect 
d_vect = DictVectorizer (sparse=False) 

EE Str SS ZiD(*tr set) 

tr = d vect.fit transform(x_tr) 

te,y_te = zip(*te_set) 

te = d_ vect.transform(Xx_ te) 

return X tr,X te,y_tr,y_te 


tr_set 和 te_set 是 我 们 先前 获得 的 训练 集 和 测试 集 实例 , 而 get_train_test 函数 则 返 
回 用 于 传递 给 sklearn 随机 森林 分 类 器 的 向 量化 特征 ， 如 以 下 代码 所 示 : 


XxX_train,x test,y_train,y_test = get_train test(train set,test_set) 
rf = RandomForestClassifier(n estimators=100,n_ jobs=4,random state=10) 
E(t) 


在 这 里 使 用 了 100 个 分 类 器 (或 者 说 决策 树 ) 用 于 整体 分 类 器 ， 其 中 参数 n_jobs 表示 并 行 
工作 的 数量 ,通过 并 行 可 以 加 速 训练 和 预测 的 过 程 。 预 测评 估 代 码 及 结果 如 以 下 代码 所 示 : 


preds = rf.predict (Xx_test) 
print (accuracy_scorel(ly_test,preds)) 





























Output 

0.81 

与 朴素 贝 叶 斯 分 类 器 相 比 ， 随 机 森林 的 准确 率 略 有 提高 , 大 约 为 81%。 现在 我 们 将 删除 评论 
中 的 所 有 停 用 词 , 并 再 次 训练 分 类 器 以 观察 模型 准确 率 是 否 有 所 提升 。 我 们 利用 NLTK 停 用 词语 
料 库 来 删除 停 用 词 ， 并 像 之 前 一 样 选择 前 2000 个 最 为 常见 的 单词 ， 如 以 下 代码 所 示 : 


from nltk.corpus import stopwords 
stopwords_list = stopwords.words('english') 














all_words_in reviews = nltk.FreqDist (word.lower() for word in 
movie reviews.words() if word not in stopwords_list) 
top_words_in reviews = [list(words) for words in 
zip(*all_words_in reviews.most_common(2000))][0] 


此 时 top_words_in_reviews 已 经 移 除 了 停 用 词 , 我 们 将 以 此 作为 词汇 生成 特征 并 训练 随 
机 和 森林 分 类 带 : 
preds = rf.predict (Xx_test) 


print (accuracy_scorel(ly_test,preds)) 
0.76 


实际 上 , 删除 该 数据 集 的 停 用 词 并 没有 提高 模型 的 表现 , 反而 使 准确 率 有 所 降低 。 通过 使 用 
以 下 代码 ， 可 以 发 现 信息 量 最 大 的 特征 ， 就 像 对 贝 叶 斯 分 类 器 所 做 的 那样 : 
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features_list = 

zip(dict_ vectorizer.get_feature names(),rf.feature importances_ ) 
features_list = sorted(features_list, key=lambda x: x[1], reverse=True) 
print (features_list[0:20]) 


像 之 前 一 样 , 我 们 对 随机 森林 分 类 器 所 学 习 到 的 特征 进行 基于 权重 的 排序 , 并 且 从 排序 后 的 
Python 列表 中 打印 前 20 个 : 




















[('word_ present (badq) '，0.012904816953952729)， ('word present (boring)', 
0.006797056379259946)， ('word_present (stupid)', 0.006742453545126172)， 
('word_ present (awful)', 0.00605732124427093),， ('word present (worst)', 
0.005618499631730539)， ('worgd_present (waste)', 0.005091242651240423)， 
('word_present (supposed)', 0.005019844359438753)， 

('word_present (excellent)', 0.005002846831984908)， ('word_ present (mess)', 
0.004735341799753426)， ('worgd_present (wasted)', 0.004477280752464545)， 
('word_ present (ridiculous)', 0.00435578373608493), ('word_ present (lame)', 
0.00404257877140679)，('word_present (also)', 0.003663095965733155)， 
('word_present (others)', 0.0035194019538410553), ('word_ present (dull)', 
0.003464806019875671)，,， ('word_present (plot)', 0.0034406946286116035)， 
('word_ present (nothing)', 0.0033285487918061265)， 

('word_present (performances)', 0.003286015291474251)， 

('word_ present (outstanding)', 0.0032708132090801516)， 

('word_present (memorable)', 0.003265718932501386)] 























类 似 于 朴素 贝 叶 斯 分 类 器 , 我 们 也 可 以 找到 传达 正面 和 负面 情绪 的 词语 。 虽然 二 进 制 特征 
能 对 基本 文本 分 类 任务 很 有 用 , 但 是 不 适用 于 更 为 复杂 的 文本 分 类 应 用 。 因 此 下 一 节 将 介绍 更 为 
先进 的 特征 提取 技术 。 




















2.5 ”训练 词 袋 分 类 器 


在 上 一 节 中 , 我 们 对 影评 中 的 单词 提取 了 简单 的 二 进 制 特征 用 以 了 解 正面 和 负面 的 情感 。 相 
较 于 该 方法 , 更 好 的 做 法 是 使 用 隐 含 特征 ， 如 文本 中 单词 的 使 用 频率 。 与 表示 单词 存在 与 否 的 二 
进 制 特征 相 比 ,单词 计数 可 以 更 好 地 捕获 文本 或 文档 的 特征 。 词 袋 作为 文本 的 向 量 表示 ,其 中 每 
个 向 量 维 都 能 捕获 文本 中 单词 的 出 现 频率 、 存 在 与 否 或 加 权 值 ， 但 是 不 能 捕获 单词 之 间 的 顺序 。 


因此 上 一 节 中 讨论 的 二 进 制 特征 提取 是 文本 的 简单 词 袋 表 示 , 而 现在 我 们 要 使 用 一 个 更 好 的 
词 袋 表示 法 对 Twitter 文本 进行 情感 分 类 。 该 示例 的 完整 Jupyter Notebook 可 在 本 书 代码 库 中 找到 
(Chapter02/03_ example.ipynb )- 本 例 将 使 用 NLTK 中 的 Twitter 样本 语料库 ,正如 movie_reviews 
语料库 一 样 ，Twiiter 样本 语料库 也 包含 了 情感 的 极 性 。 

























































































pos_tweets = [(string, 1) for string in 
twitter_ samples.strings('positive tweets.json')] 
neg_tweets = [(string,0) for string in 


twitter_ samples.strings('negative_ tweets.json')] 
pos_tweets.extend (neg_ tweets) 
comb_tweets = pos_tweets 


random.shuffle(comb tweets) 
tweets,1labels = (zip(*comb_ tweets)) 
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像 以 前 一 样 ， 我 们 从 JSON 文件 中 读 取 数据 并 附加 情感 标签 。JSON 解析 和 文本 提取 过 程 由 
NLTK 使 用 字符 串 功 能 完成 ， 而 我 们 在 情感 标签 上 附 上 1 表示 正面 情绪 ， 附 上 0 表示 负面 情绪 。 
同时 , 我 们 还 会 在 推 文 的 Python 列表 及 情感 标签 元 组 中 进行 混 洗 以 调整 正面 和 负面 情绪 的 顺序 ， 
如 以 下 代码 所 示 : 

count_vectorizer = CountVectorizer (ngram range= 


(1,2),max_features=10000) 
X = count_ vectorizer.fit_ transform(tweets) 








我 们 利用 sklearn 中 的 countVectorizer 函数 生成 特征 并 将 特征 数量 限制 为 10 000。 我 们 
还 使 用 了 一 元 (unigram ) 和 二 元 (bigram ) 特征 。 一 个 n 元 表示 从 文本 中 连续 采样 的 n 个 单词 特 
征 。 一 元 模型 是 通常 的 单个 单词 特征 ， 而 二 元 模型 则 是 文本 中 两 个 连续 的 单词 序列 。 因 为 二 元 模 
型 是 两 个 连续 的 单词 ， 所 以 可 以 捕获 文本 中 的 短 单词 序列 或 者 短语 。 在 此 示例 中 ， 由 于 
ngram_range 为 (1,2)，CountVectorizer 将 既 从 推 文 中 提取 一 元 特征 又 提取 二 元 特征 
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在 将 其 分 为 80% 的 训练 集 及 20% 的 测试 集 后 ， 我 们 将 使 用 推 文 训练 模型 ， 如 以 下 代码 所 示 : 


rf = RandomForestClassifier(n estimators=100,n jobs=4,random state=10) 
rf.fit(x train,y_train) 

XxX_train,x test,y_train,y_test = 

train test_split (Xx,labels,test_size=0.2,random state=10) 


























现在 我 们 将 通过 测试 集 预 测 其 情感 标签 来 对 模型 进行 评估 ， 得 出 准确 率 得 分 和 混淆 矩阵 : 


preds = rf.predict (Xx_test) 
print (accuracy_scorel(y_test,preds)) 
print (confusion matrix(y_test,preds)) 





Output 


0.758 
[[796 173] 
[311 720]] 





该 模型 的 准确 率 约 为 73%。 接 下 来 我 们 将 使 用 tfiaf 向 量化 器 对 模型 展开 测试 ， 该 向 量化 
器 似 于 基于 计数 的 革 元 语法 模型 , 不 同 之 处 在 于 它 对 计数 进行 加 权 : 根据 单词 在 所 有 文档 或 文本 
中 的 出 现 情况 为 单词 赋予 权重 。 这 意味 着 相 较 于 只 在 特定 文档 中 出 现 的 单词 , 在 所 有 文档 里 都 频 
繁 出 现 的 单词 的 权重 会 更 低 。 

from nltk.corpus import stopwords 


tfidf = TfidfVectorizer (ngram range=(1,2),max_features=10000) 
xX = tfidf.fit transform(tweets) 

















如 先前 所 做 的 那样 ， 我 们 从 文本 中 提取 一 元 模型 和 二 元 模型 ， 并 使 用 测试 数据 对 模型 展开 
评 佑 : 


preds = rf.predict (Xx_test) 
print (accuracy_scorel(y_test,preds)) 
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print (confusion matrix(y_test,preds)) 

Output 

0.756 

此 时 Tfiqfvectorizer 仍 未 提高 模型 的 准确 率 。 我 们 将 使 用 NLTK 停 用 词 集 从 推 文中 去 除 
停 用 词 : 


from nltk.corpus import stopwords 

tfidf = TfidfVectorizer (ngram range=(1,2),max_features=10000, 
stop_words=stopwords.words('english')) 

xX = tfidf.fit_ transform(tweets) 








preds = rf.predict (Xx_test) 

print (accuracy_scorel(ly_test,preds)) 

print (confusion matrix(y_test,preds)) 

Output 

0.736 

对 测试 数据 的 评估 显示 : 模型 的 准确 率 有 所 下 降 。 去 除 停 用 词 可 能 并 不 总 会 提高 准确 率 ， 
为 准确 性 还 取决 于 训练 数据 。 特 定 的 停 用 词 可 能 会 出 现在 指示 推 文 情感 的 常见 短语 中 。 




















2.6 小 结 


本 章 介 绍 了 常见 的 NLP 任务 ， 例 如 使 用 NLTK 库 对 文本 进行 预 处 理 和 探索 性 分 析 。 真 实 世 
界 中 数据 的 非 结构 化 特性 需要 进行 大 量 预 处 理 ， 例 如 分 词 、 词 干 提取 和 停 用 词 去 除 等 ， 以 使 数据 
适应 机 器 学 习 的 需求 。 正 如 示例 所 示 ，NLTK 提供 了 广泛 的 API 来 执行 这 些 预 处 理 步 又: 它 提 供 
了 内 置 的 包 和 模块 ， 并 文 持 灵 活 地 构建 自 定义 模块 ， 例 如 用 户 自 定义 词 干 分 析 咒 和 分 词 器 。 


我 们 还 讨论 了 使 用 NLTK 进行 词性 标注 。 词 性 标注 是 另 一 种 常见 的 NLP 任务 ， 用 于 解决 诸 
如 单词 消 歧 和 问答 之 类 的 问题 。 情 感 分 类 等 应 用 由 于 其 研究 价值 和 商业 价值 而 被 广泛 使 用 。 讨 论 
情感 分 析 时 ， 我 们 使 用 了 NLTK 语料库 和 sklearn 库 ， 介 绍 了 用 于 推 文 和 影评 文本 分 类 的 基本 示 
例 。 以 上 示例 可 在 简单 的 NLP 任务 中 使 用 ， 而 我 们 在 后 续 章 节 中 将 介绍 如 何 使 用 深度 学 习 进 行 
更 为 复杂 的 文本 分 类 任务 。 
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由 于 采用 了 深度 学 习 模 型 ， 利 用 NLP 技术 的 应 用 已 开始 在 语言 翻译 、 文 本 摘要 和 文本 转 语 
音 等 任务 中 达到 接近 人 类 水 平 的 准确 性 。 推动 这 一 进展 的 是 深度 学 习 领 域 的 两 个 关键 发 展 。 第 一 
个 是 全 新 深度 神经 网 络 结构 探索 工作 的 迅速 进展 , 而 这 是 通过 海量 数据 的 获取 实现 的 。 与 传统 方 
法 相 比 ， 此 类 架构 可 以 实现 卓越 的 性 能 表现 。 第 二 个 则 是 开源 工具 或 库 ( 例如 TensorFlow ) 的 可 
用 性 不 断 提 高 , 使 得 这 些 现代 架构 可 以 在 实际 或 生产 应 用 中 轻松 实现 。 本 章 的 目的 是 提供 深度 学 
习 和 TensorFlow 的 必要 基础 知识 ， 使 你 能 够 充满 信心 地 阅读 之 后 的 章节 。 


本 章 涵盖 以 下 主题 : 


口 深度 学 习 中 的 各 种 概念 和 术语 
口 通用 深度 学 习 架 构 ( 如 CNN 和 RNN ) 的 概述 
口 TensorFlow 的 安装 、 设 置 及 入 门 

















































































































3.1 深度 学 习 


近年 来 ,深度 学 习 已 趋 于 流行 ,并 开始 推动 人 工 知 能 ( AI ) 普及 的 革命 。 尽 管 某 些 技术 并 非 
全 新 , 但 海量 数据 和 廉价 计算 能 力 使 得 深度 学 习 被 广泛 采用 。 在 本 章 中 , 你 将 学 习 本 书 剩余 部 分 
所 需 的 深度 学 习 基 本 概念 和 术语 。 

相 较 于 硬 编码 规则 的 传统 方法 或 算法 , 深度 学 习 使 机 器 或 计算 机 能 够 从 原始 数据 中 学 习 并 做 
出 预测 。 深 度 学 习 是 机 融 学 习 的 分 支 ， 而 机 融 学 习 本 身 则 是 AI 的 分 支 。 深 度 学 习 技术 在 一 定 程 
度 上 受到 了 神经 科学 的 启发 。 




















3.1.1 感知 器 


我 们 首先 介绍 感知 器 模型 , 这 是 最 简单 的 神经 网 络 模型 。 当 在 标记 好 的 训练 数据 集 上 训练 时 ， 
它 可 以 基于 输入 和 输出 来 学 习 线性 映射 。 线 性 映射 是 一 组 输入 变量 〈 即 特征 ) 权重 乘积 的 总 和 。 
在 处 理 分 类 问题 时 ， 最 终 的 总 和 通过 一 个 阶 跃 函数 来 选择 0 或 者 1。 感 知 右 如 图 3-1 所 示 。 
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单位 阶 跃 函数 




















图 3-1 


权重 是 通过 学 习 过 程 从 训练 数据 中 得 出 的 ， 在 本 章 稍 后 将 对 该 过 程 做 出 说 明 。 感 知 器 使 用 
单位 阶 跃 函数 进行 输出 预测 ， 最 终 激 活 的 输出 可 以 为 0 或 1， 对 应 于 训练 数据 中 的 二 进 制 类 别 。 
单位 阶 路 函数 是 最 简单 的 激活 函数 ， 下 面 将 介绍 其 他 儿 种 在 现代 深度 学 习 架 构 中 广泛 使 用 的 激 
活 函 数 。 




















3.1.2 ”激活 函数 


激活 函数 是 神经 网 络 的 重要 组 成 部 分 , 可 以 将 神经 网 络 节 点 的 输入 转换 为 非 线 性 输出 ， 这 使 
得 神经 网 络 能 够 从 数据 中 学 习 任 意 非 线性 映射 或 模式 。 激活 本 身 可 以 被 视 作 触发 系统 的 事件 。 对 
于 之 前 的 单位 阶 跃 函数 ， 感 知 器 触发 与 否 分 别 对 应 值 1 或 0。 除 此 之 外 ， 还 有 其 他 的 激活 函数 ， 
例如 sigmoid 函数 、 双 曲 正切 函数 ( hyperbolic tangent ) 和 线性 整流 函数 ( rectified linear unit, ReLU ) 
等 ， 下 面 将 展开 讨论 。 





1. sigmoid 


sigmoid 激活 函数 可 以 将 任何 输入 转换 为 概率 分 布 输出 。 总 的 来 说 ，sigmoid 函数 将 任意 值 压 
缩 或 映射 到 0 和 1 之 间 的 值 , 因此 被 广泛 用 于 二 进 制 分 类 任务 , 其 输出 可 被 视 为 属于 该 类 的 概率 。 
sigmoid 激活 函数 如 图 3-2 所 示 。 
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图 3-2 


如 图 3-2 所 示 ，sigmoid 函数 类 似 于 单位 阶 跃 函数， 但 其 曲线 更 为 平滑 。 这 种 平滑 性 确保 了 
函数 在 整个 取 值 范围 内 的 差异 性 ， 而 这 在 网 络 训 练 期 间 是 必需 的 。 我 们 将 在 后 面 对 此 进行 讨论 。 


2. 双 曲 正切 函数 
双 曲 正切 激活 函数 将 输入 转换 为 -1 和 1 之 间 的 取 值 。 图 3-3 是 双 曲 正切 函数 的 图 形 表示 。 






































38 第 3 章 深度 学 习 和 TensorFlow 























如 图 3-3 所 示 ， 该 函数 类 似 于 sigmoid 函数 ,但 是 其 y 值 在 -1 和 1 之 间 变 化 。 双 曲 正切 函数 
的 主要 优点 是 当 x 取 负 值 时 ， 函 数值 不 会 减 小 。 与 sigmoid 函数 相 比 ， 双 曲线 函数 在 其 范围 内 具 
有 更 高 的 梯度 。 该 激活 函数 也 称 tanh 函数 。 

3. ReLU 


ReLU 限制 了 从 负 值 到 0 的 输入 , 但 对 于 正 值 输入 , 其 输出 与 输入 相同 。 对 于 正 值 而 言 , ReLU 
函数 具有 恒定 的 梯度 ， 但 对 于 负 值 而 言 其 梯度 为 0。ReLU 的 图 形 表示 如 图 3-4 所 示 。 
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图 3-4 

由 此 可 以 看 出 ， 对 于 负 值 输入 ，ReLU 根本 不 会 触发 。 该 激活 函数 的 计算 复杂 度 低 于 前 述 几 
个 函数 ， 因 此 其 预测 将 更 快 一 些 。 在 下 一 节 中 , 你 可 以 看 到 如 何 互相 连接 多 个 感知 器 以 形成 一 个 
深度 神经 网 络 。 




















3.1.3 神经 网 络 
申 经 网 络 是 互相 连接 的 神经 元 组 成 的 网 络 。 一 个 神经 网 络 的 示例 如 图 3-5 所 示 。 
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输出 层 














图 3-5 


在 图 3-5 中 ， 输 入 数据 被 提供 到 输入 层 ， 然 后 被 传递 到 隐藏 层 。 隐 藏 层 中 每 个 单元 或 节点 都 
基于 输入 来 计算 激活 并 将 其 传递 到 最 终 的 输出 节点 。 输 出 节点 根据 来 自 隐藏 层 的 所 有 输入 来 计算 
最 终 输出 。 尽 管 图 中 仪 显示 了 一 个 隐藏 层 , 但 是 实际 的 网 络 可 以 有 多 个 隐藏 层 。 输 出 中 的 激活 函 
数 可 用 于 二 分 类 数据 。 如 果 要 预测 多 标签 类 别 , 则 还 需要 一 些 其 他 技术 。 下 面 我 们 学 习 独 热 编码 
( one-hot encoding )、softmax 和 交叉 (cross-entropy )。 


1. 独 热 编 码 


独 热 编码 是 用 于 标记 数据 ( 尤其 是 分 类 数据 ) 的 向 量化 技术 。 对 于 二 进 制 标签 而 言 ， 目 标 变 
量 将 显示 为 [0, 1] 和 [1, 0]， 对 于 三 个 类 别 ， 相 同 的 表示 形式 将 显示 为 [0, 0, 1]、[0, 1, 0] 和 [1, 0, 0] 。 
独 热 编码 支持 任意 数量 的 类 别 ， 其 主要 优点 在 于 ,与 任意 分 类 标注 方法 相 比 , 它 对 所 有 类 别 数据 
一 视 同仁 。 例 如 ， 虽 然 可 以 使 用 诸如 0、1 和 2 之 类 的 整数 来 表示 颜色 ( 例如 红色 、 绿 色 和 蓝 色 ) 
的 类 别 ,， 但 尽管 颜色 本 身 没有 固有 顺序 ， 某 些 ML 模型 却 可 能 会 将 此 类 输入 视 为 按 序 排列 的 。 独 
热 编码 避免 了 这 种 情况 : 因为 分 类 值 是 二 进 制 编码 的 ， 所 以 它 不 会 假定 分 类 值 具 有 任何 顺序 。 






























































2. softmax 
softmax 将 任意 值 的 向 量 归 一 化 或 压缩 到 0 和 1 之 间 的 概率 分 布 ,其 向 量 输出 的 总 和 等 同 于 1。 
因此 , 它 通常 用 于 神经 网 络 的 最 后 一 层 来 预测 输出 类 别 可 能 的 概率 。 以 下 是 下 标 为 j 向量 的 softmax 















































Softmax(z,) = 2 
> k=1 er” 





其 中 了 表示 第 7 个 向 量 的 值 , K 表 示 类 别 的 数量 。 从 公式 可 以 看 出 ,指数 函数 使 输出 值 更 加 平滑 ， 
而 分 母 将 0 和 1 之 间 的 最 终 取 值 进行 归 一 化 。 
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3. 交叉 灶 


交叉 灶 是 分 类 任务 在 训练 期 间 的 损失 。 它 实际 上 计算 了 softmax 概率 或 预测 与 真实 分 类 之 间 
的 差异 。 以 下 是 二 分 类 问题 中 交叉 炉 的 表达 式 ， 其 输出 用 概率 了 表示， 真实 值 用 y 表示: 














CrossEntropy = ~—ylog(?)—(1—y)log(l—y) 


可 以 看 出 ， 当 预测 的 概率 接近 1 而 真实 输出 为 0 时 ， 交 叉 焙 将 增加 或 进行 惩罚 。 同 样 ， 表 达 
式 可 以 扩展 到 天 个 类 别 时 的 情况 。 





3.1.4 训练 神经 网 络 


定义 网 络 结构 及 其 训练 方式 的 变量 称 为 超 参 数 。 因 为 需要 优化 若干 超 参数 , 所 以 对 深度 神经 
网 络 的 训练 显得 较为 困难 。 隐 藏 层 的 数量 和 需要 使 用 的 激活 函数 都 是 定义 架构 的 超 参 数 示例 。 类 
似 地 , 训练 数据 的 学 习 率 和 批 大 小 都 是 与 训练 相关 的 超 参 数 示例 。 其 他 主要 参数 则 是 需要 通过 训 
练 输入 数据 获得 的 网 络 权 重 和 偏差 。 获 得 网 络 各 种 参数 的 机 制 或 方法 称 为 训练 。 


1. 反 向 传播 


训练 算法 的 目标 是 找到 最 小 化 某 个 损失 函数 的 网 络 权 重 及 偏差 , 而 这 取决 于 预测 输出 和 真实 
标签 或 真实 值 。 为 此 ,我们 在 输出 端 计 算 相 对 于 权重 和 偏差 的 损失 函数 的 梯度 ,并 将 误差 向 后 传 
播 至 输入 层 , 而 这 些 误差 又 被 用 来 计算 所 有 中 间 层 直到 输入 层 的 梯度 。 这 种 计算 梯度 的 技术 称 为 
反 向 传播 。 在 反 向 传播 的 每 个 迭代 过 程 中 ， 当 前 预测 结果 中 的 误差 都 将 通过 网 络 进行 反 向 传播 ， 
以 针对 各 层 权 重 和 偏差 计算 梯度 。 


图 3-6 展示 了 反 向 传播 方法 。 












































图 3-6 
这 种 使 用 反 向 传播 来 更 新 权重 及 偏差 的 训练 算法 称 作 梯度 下 降 ， 之 后 将 进行 详细 说 明 。 











2. 梯度 下 降 


梯度 下 降 是 一 种 优化 方法 , 它 利 用 反 向 传播 计算 出 的 梯度 来 更 新 权重 和 偏差 , 不 断交 近 最 小 
化 损失 。 如 图 3-7 所 示 ， 通 过 沿 着 函数 的 斜率 或 梯度 调整 权重 ,代价 (损失 ) 能 
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图 3-7 


对 于 简单 的 感知 器 ,损失 函数 与 权重 的 关系 是 线性 的 , 但 对 于 深度 神经 网 络 , 损失 函数 通常 
是 多 维 、 非 线性 的 。 由 于 梯度 下 降 必须 沿 所 有 维度 遍历 路 径 , 在 可 接受 时 间 内 达到 全 局 最 小 值 往 
主 十 分 困难 。 为 了 避免 出 现 此 问题 并 加 快 训练 速度 ， 神 经 网 络 通常 采用 随机 梯度 下 降 ， 下 面 将 对 
进行 说 明 。 

3. 随机 梯度 下 降 


随机 梯度 下 降 是 梯度 下 降 算法 的 变 体 , 往往 用 于 训练 深度 学 习 模 型 。 它 的 基本 思想 是 不 训练 
整个 数据 集 ， 而 是 使 用 训练 集 的 子 集 。 从 理论 上 来 说 ， 一 个 样本 已 足以 训练 网 络 。 但 是 实际 上 ， 
随机 梯度 下 降 通 常 使 用 固定 数量 的 输入 或 批 数 据 〈batch )。 与 批量 梯度 下 降 ( vanilla gradient 
descent )“ 相 比 ， 这 种 方法 可 加 快 训练 速度 。 


4. 正则 化 技术 


过 拟 合 是 机 器 学 习 中 的 常见 问题 : 模型 盲目 地 学 习 了 数据 中 包括 噪声 在 内 的 所 有 模式 。 由 于 
有 大 量 参数 可 用 , 神经 网 络 在 训练 过 程 中 很 容易 产生 过 拟 合 。 从 理论 上 讲 ， 给 定 任意 大 小 的 输入 
数据 ， 足 够 大 的 人 工 神 经 网 络 (artificial neural network，ANN ) 都 可 以 记 住 其 中 的 所 有 模式 及 噪 
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QD 也 叫 batch gradient descent。vanilla 是 指标 准 、 常 规 或 未 修改 的 版 本 。vanilla 梯度 下 降 法 是 指 基本 的 批量 梯度 下 降 
算法 ， 未 经 过 优化 和 修改 。 译 者 注 
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声 。 因 此 ， 我 们 必须 对 模型 的 权重 进行 正则 化 处 理 以 避免 数据 的 过 拟 合 。 
我 们 将 学 习 三 种 正则 化 技术 : 


口 随机 失 活 ( dropout ) 
口 批 标准 化 
D 口 L1 和 L2 正则 化 





© dropout 


dropout 机 制 是 在 训练 过 程 中 暂时 丢弃 某 些 神经 元 来 达到 正则 化 的 技术 。 因 此 ， 权 重 是 标准 
化 的 。 图 3-8 显示 了 一 个 神经 网 络 ， 左 侧 为 标准 网 络 ， 右 侧 为 dropout 后 的 网 络 。 












































标准 神经 网 络 应 用 dropout 后 











图 3-8 


实际 上 ，dropout 可 防止 网 络 过 分 重视 可 能 会 导致 过 拟 合 的 任意 单个 节点 或 特征 。 因 此 ,使 
用 dropout 将 权重 值 分 布 在 不 同 的 节点 上 可 以 对 输出 实现 正则 化 。 另 一 种 对 数据 本 身 起 作用 的 正 
则 化 技术 是 批 标准 化 ， 下 面 将 进行 说 明 。 


@ 批 标准 化 


批 标准 化 可 重新 调整 网 络 的 输入 和 所 有 中 间 层 输出 的 大 小 , 使 训练 过 程 更 流畅 、 迅 速 。 在 进 
行 缩放 后 ， 所 有 输入 和 输出 的 平均 值 均 为 0、 标准 差 为 1。 这 有 助 于 神经 网 络 提升 训练 速度 ， 并 
带 来 正则 化 的 效果 。 


e Ll 和 1L2 正则 化 


L1 和 L2 正则 化 是 常见 的 正则 化 技术 ， 可 控制 训练 过 程 中 网 络 权 重 增 长 或 收缩 的 幅度 。 与 
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dropout 类 似 , 它 使 网 络 不 会 对 部 分 特征 的 过 分 重视 。 在 L1 正则 化 中 损失 函数 与 权重 的 大 小 成 正 
比 ， 而 在 L2 正则 化 中 损失 函数 与 权重 的 平方 成 正比 。 
3.1.5“ 卷 积 神经 网 络 


卷 积 神经 网 络 ( CNN ) 通 过 学 习 卷 积 核 来 对 数据 进行 变换 。 卷 各 更 得 变换 对 于 平移 保持 不 变 。 
随 着 层 层 加 深 ， 特 征 的 次 度 会 根据 分 配 的 过 滤 吉 数量 而 变化 。 图 3-9 对 此 做 出 了 说 明 。 
































1. 核 








核 是 CNN 用 来 在 特征 图 ( feature map ) 上 滑动 的 小 窗口 。 如 图 3-10 所 示 ， 核 进行 滑动 窗口 
运动 并 生成 输出 的 特征 图 。 

















(目标 像素 ) 








图 3-10 

核 可 以 选用 不 同 大 小 的 矩形 并 以 较 长 或 较 短 的 步 长 进行 移动 。 

2. 最 大 池 化 

最 大 池 化 (max pooling ) 是 一 种 从 小 窗口 中 选取 最 大 值 的 二 次 抽样 形式 ， 如 图 3-11 所 示 。 








使 用 2 x 2 的 滤波 器 和 


so | 6 El 
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图 3-11 
在 图 3-11 中 ， 最 大 池 化 从 窗口 中 分 别 选 取 了 各 个 小 窗口 的 最 大 值 。 
3.1.6 ”递归 神经 网 络 


递归 神经 网 络 (RNN ) 可 以 训练 语 


Ay 
































言 等 存在 时 序 依赖 的 模型 。 实 际 上 , 它 可 以 用 于 训练 任何 
种 类 的 序列 数据 。 在 RNN 中 ， 神 经 元 的 输出 会 被 作为 下 一 时 刻 的 输入 反馈 到 其 自身 。 展 开 后 的 
RNN 如 图 3-12 所 示 。 
O 
SS % 9 
V V V V 
了 展开 
(mm 
U U U U 
xX -1 X Xi 
图 3-12 
由 于 RNN 从 先前 时 间 步 中 获取 输入 的 性 质 ， 其 中 很 久 以 前 序列 中 的 数据 将 会 丢失 。 
长 短期 记忆 网 络 

















长 短期 记忆 网 络 (LSTM ) 可 以 通过 使 用 “遗忘 门 ”来 记 住 很 久 以 前 的 





了 
兴 二 


事 。 相 对 于 RNN 而 
, LSTM 优点 在 于 可 以 长 时 间 保 持 记忆 。LSTM 中 有 好 几 个 门 , 诸如 遗忘 门 、 输 出 门 和 输入 门 ， 
每 个 都 有 自己 的 功能 





， 如 图 3-13 所 示 。 
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图 。3-13 


我 们 在 本 市 学 习 了 一 些 深度 学 习 的 技术 ,下面 将 了 解 一 下 TensorFlow。 





3.2 TensorFlow 


























TensorFlow 是 Google 为 机 器 学 习 提供 的 库 。 它 运行 快 、 可 扩展 ， 并 且 具 有 用 于 可 视 化 和 部 
署 的 多 种 工具 , 已 在 开发 者 社区 中 普及 开 来 并 被 多 个 组 织 所 使 用 。 在 本 节 中 , 你 将 看 到 它 的 硬件 
要 求 、 安 装 过 程 和 几 个 简单 的 使 用 示例 。 








3.2.1 通用 图 形 处 理 单元 

通用 图 形 处 理 单元 ( general purpose - graphics processing unit，GPGPU ) 可 以 在 很 大 程度 上 
加 快 深度 学 习 模 型 训练 和 推理 的 速度 。 大 数据 和 廉价 计算 力 不 断 推进 深度 学 习 取 得 新 进展 。 
NVIDIA 公司 提供 了 GPU 和 一 些 库 来 加 速 深度 学 习 。 使 用 GPU 硬件 进行 训练 很 有 帮助 ， 但 并 不 
是 必需 的 。 

1. 统一 计算 设备 架构 

NVIDIA 提供 的 统一 计算 设备 架构 ( Compute Unified Device Architecture，CUDA ) 库 将 为 
GPU 安装 所 需要 的 驱动 程序 ， 其 下 载 页 面 如 图 3-14 所 示 。 
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Select Target Platform @ 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. 


Operating System Windows 

Architecture @ x86_64 

pistribution E 
Version 17.04 

Installer Type @ runfile (local) 


Download Installer for Linux Ubuntu 16.04 x86_64 


The base installer is available for download below. 


> Base Installer Download [2.8 KB] 和 


Installation Instructions: 








. sudo dpkg -icuda-repo-ubuntu1604_9.0.176-1_amd64.deb” 

-sudo apt-key adv --fetch-keys https://developer.download. nvidia mi siniisisininiitiininiii 
.sudo apt-get update` 

. “sudo apt-get install cuda 


入 OOD= 


Other installation options are available in the form of meta-packages. For example, to install all the library packages, replace "cuda” with the 
“cuda-libraries-9-0" meta package. For more information on all the available meta packages click here. 











The CUDA Toolkit contains Open-Source Software. The source code can be found here. 
The checksums for the installer and patches can be found in Installer Checksums. 
For further information, see the Installation Guide for Linux and the CUDA Quick Start Guide. 




















图 3-14 
根据 你 所 使 用 的 计算 机 环境 ， 根 据 指示 选择 并 安装 相应 的 版 本 。 
2. CUDA 深度 神经 网 络 
当 NVIDIA 硬件 投入 使 用 时 ，CUDA 深度 神经 网 络 ( CUDA Deep Neural Network，cuDNN ) 
可 被 用 来 加 速 深度 学 习 模 型 的 训练 和 推理 过 程 。 
3.2.2 ”安装 


在 安装 有 Python 的 环境 中 ，TensorFlow 的 安装 非常 简单 。 根 据 是 否 具 有 GPU， 可 以 使 用 以 
下 代码 进行 安装 : 
sudo pip install tensorflow 


也 可 以 用 以 下 代码 : 
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sudo pip install tensorflow-gpu 


接 下 来 我们 将 会 看 到 一 系列 示例 。 


3.2.3 Hello world ! 


下 面 来 看 看 如 何 用 TensorFlow 完成 Hel1o，wor1ld1! 的 输出 。 我 们 将 直接 在 Python shell 中 
完成 这 一 示例 : 





(1) 进入 Python shell。 


(2) 使 用 以 下 代码 导入 TensorFlow: 

>>>import tensorflow as tf 

(3) 通过 基于 tf 的 定义 ，TensorFlow 可 以 理解 并 使 用 常量 、 变 量 和 操作 等 。 使 用 以 下 代码 定 
义 一 个 常量 字符 串 : 

>>>hello_ world = tf.constant ("Hello, world!") 

(4) 创建 一 个 会 话 : 

>>>sess = tf.Session() 

(5) 运行 会 话 : 

>>>print (sess.run(hello world)) 

(6) 输出 应 如 下 所 示 : 

Hello, world! 


恭喜 ! 你 已 经 写 出 了 首 个 使 用 TensorFlow 的 程序 。 下 面 我 们 将 介绍 使 用 TensorFlow 的 一 些 
概念 。 





3.2.4 两 数 相 加 


现在 来 看 看 使 用 TensorFlow 完成 两 数 相 加 的 示例 。 占 位 符 是 TensorFlow 图 中 的 节点 ， 而 会 
话 指 的 是 图 初始 化 并 准备 处 理 值 的 时 刻 。 在 会 话 期 间 ， 我 们 可 以 将 值 传递 到 占 位 符 中 。 


(1) 我 们 将 定义 两 个 用 于 存储 整数 的 占 位 符 : 


a 
b 


(2) 将 两 个 变量 相 加 并 存储 在 新 变量 中 : 




















tf.Placeholder (tf.int32) 
tf.Placeholder (tf.int32) 
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分 注意 ， 这 个 操作 仅仅 被 定义 好 但 尚未 执行 。 





(3) 创建 值 字典 以 加 载 到 占 位 符 。 字 典 的 键 本 身 就 是 带 有 占 位 符 的 变量 ， 如 下 所 示 : 


Values = {de 9 D3 


(4) 创建 一 个 会 话 。 当 会 话 启 动 时 ，TensorFlow 图 会 被 载 人 到 内 存 , 准备 好 将 值 传 入 占 位 符 中 
并 进行 处 理 : 

sess = tf.Session() 

(5) 将 值 传人 图 中 并 运行 会 话 。 我 们 需要 返回 节点 c 的 输出 ， 所 以 使 用 以 下 代码 : 


print (sess.run([c], values)) 


输出 结果 应 为 [8.0] 。 这 个 例子 展示 了 数值 被 馈送 到 图 中 并 人 处理 的 过 程 。 

















3.2.5 TensorBoard 


接 下 来 使 用 TensorBoard 进行 图 的 可 视 化 工作 。 我 们 要 更 新 加 法 程序 , 使 其 包含 TensorBoard 
的 说 明 。 可 以 为 任何 节点 分 配 名 称 ， 以 便 在 TensorBoard 中 使 用 相应 的 名 称 对 其 进行 演 梁 : 
(在 以 下 代码 片段 中 ， 给 了 占 位 符 分 配 了 名 称 'a'、'b' 和 'c': 


a tf.Placeholder (tf.int32, name='a') 
b tf.Placeholder (tf.int32, name='b') 
如 tf.add(a, b, name='add') 

values = {a: 5, b: 3} 

sess = tf.Session() 


(2) 创建 值 并 开始 会 话 ， 在 此 之 后 将 文件 路 径 作为 参数 创建 摘要 编辑 。 摘 要 所 需 的 详细 信息 
将 被 存储 在 该 文件 中 ， 并 可 用 于 显示 TensorBoard: 


summary_writer = tf.summary.FileWriter('/tmp/1', sess.graph) 

(3) 如 上 节 中 一 样 运 行 会 话 : 

sess.run([c], values) 

(4) 当 程 序 开始 运行 时 ， 进 入 命令 提示 符 ， 使 用 摘要 文件 的 路 径 作 为 参数 并 键入 以 下 命令 : 
tensorboard --logdir=/tmp/1 

(5) 进入 以 下 链接 : 

http://localhost:6006/ 


你 将 看 到 如 图 3-15 所 示 的 界面 。 
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图 3-15 
在 随后 的 章节 中 ， 你 将 学 到 TensorBoard 的 其 他 用 途 。 


3.2.6 ”Keras 库 


Keras 库 是 一 个 可 以 在 后 端 使 用 多 个 深度 学 习 库 的 简化 API。 由 于 用 法 简单 ，Keras 在 深度 学 
习 社 区 中 很 受 欢迎 。Keras 可 以 在 后 端 使 用 TensorFlow 或 Torch 框架 。 本 书 将 以 TensorFlow 和 
Keras 为 例 。 此 外 ，TensorFlow 在 tf.keras 模块 下 还 具有 Keras 版 本 。 


3.3 小 结 


在 本 章 中 ， 你 学 习 了 深度 学 习 和 TensorFlow 的 基础 知识 。 本 章 涉 及 的 词汇 将 在 全 书 范围 内 
使 用 。 诸 如 CNN 和 LSTM 之 类 的 概念 是 许多 应 用 的 基本 构建 模块 。 


在 下 一 章 ， 我 们 将 使 用 LSTM 为 不 同 的 应 用 训练 一 个 深度 学 习 模 型 以 进行 文本 分 类 。 


使 用 浅 层 模型 进行 
语义 藤 入 








本 章 将 探讨 理解 单词 间 语义 关系 的 动机 ， 并 讨论 识别 语义 关系 的 方法 。 在 此 过 程 中 , 我 们 将 
获得 单词 的 向 量 表示 ， 这 有 助 于 构建 文档 级 别 的 向 量 表示 形式 。 
本 章 涵盖 以 下 主题 : 
口 由 简单 浅 层 神经 网 络 模型 训练 的 词 钥 入 (word embedding )， 它 可 将 词 表示 为 向 量 
口 连续 词 袋 (CBOW ) 散人 和信， 它 使 用 类 似 的 神经 网 络 训 练 ， 可 以 从 给 定 词 预 测 日 标 
口 通过 平均 Word2vec 得 到 的 名 各 入 
口 通过 文档 平均 获得 的 文档 能 入 
































4.1 词 向 量 

词 向 量 (word vector ) 是 许多 应 用 中 非常 有 用 的 构建 模块 。 它 可 以 对 词 间 的 语义 关系 进行 捕 
获 和 编码 , 并 最 终 将 单词 转换 为 数字 序列 ， 从 而 形成 非常 适合 训练 深度 学 习 模 型 的 密集 向 量 。 本 
章 将 详细 介绍 各 种 方法 ， 用 于 构建 这 种 便于 分 析 语 义 的 词 误 和 人。 























4.1.1 经 典 方 法 


构建 单词 表示 的 传统 方法 一 般 使 用 词 袋 模型 。 在 该 模型 中 , 词 表 示 将 各 个 单词 视 为 彼此 独立 
的 。 因 此 此 类 表示 通常 使 用 独 热 编码 生成 句子 或 文档 的 向 量 表示 , 以 显示 句子 中 单词 的 存在 与 否 。 
但 这 种 表示 在 实际 应 用 中 人 鲜 有 使 用 ， 因 为 单词 的 含义 会 根据 周围 单词 而 变化 。 例 如 ， 考 虑 句子 
“The cat sat on the broken wall” 以 及 “The dog jumped over the brick structure”。 可 以 明显 地 看 出 ， 
尽管 这 两 个 句子 讨论 的 是 两 个 独立 的 事件 ,但 是 其 语义 是 相似 的 。 例 如 ，dog 与 cat 都 属于 一 个 
称 为 animal 的 实体 ， 所 以 是 相似 的 ; 而 wall 则 可 以 被 视 作 类 似 于 brick structure。 因 此 ， 尽 管 两 
个 句子 分 别 讨论 了 不 同 的 事件 , 但 它们 在 语义 上 是 相互 关联 的 。 在 使 用 词 袋 模型 ( 其 中 , 单词 以 
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其 自身 维度 进行 编码 ) 的 经 典 方法 中 ， 实 际 上 无 法 对 这 种 语义 上 的 相似 性 进行 编码 。 
看 看 下 面 的 句子 : 





口 TensorFlow is an open source software library 





口 Python is an open source interpreted software programming language 


如 果 我 们 认为 这 两 句 话 分 别 属于 独立 的 文档 ， 则 可 以 创建 两 个 词 列表 : 








口 [TensorFlow, js, an, open, source, software, library] 





口 [Python, is, an, open, source, interpreted, software, programming, language] 


此 时 ， 先 前 两 个 文档 的 词汇 可 以 合并 写成 : [TensorFlow, is, an, open, source, software, library, 
Python, interpreted, programming, language]， 其 中 包含 11 个 单词 。 


因此 ， 我 们 可 以 用 如 下 形式 来 表示 最 初 的 文档 : 


OD [1,1,1,1,1,1,1,0,0,0,0] 
D [0,1,1,1,1,1,0,1,1,1,1] 


在 上 述 表示 中 , 每 个 数字 表示 词汇 列表 中 对 应 位 置 的 单词 在 文档 中 重复 出 现 的 次 数 。 由 此 可 
以 看 出 : 当 词 汇 量 增加 时 ,其 中 绝 大 多 数 单词 将 不 会 出 现在 每 个 文档 中 ， 从 而 使 向 量 表示 成 为 一 
个 长 且 几 乎 为 空 ( 零 ) 的 形式 。 无 论 句子 的 长 度 如 何 ， 其 大 小 将 固定 是 词汇 表 的 大 小 。 


传统 方法 的 男 一 个 不 足 是 无 法 体现 单词 在 句子 中 出 现 的 顺序 ,传统 的 词 袋 方法 统计 文档 中 文 
本 的 词汇 量 ， 以 获得 存在 单词 的 表示 形式 ,但 这 丢 了 失 上 下 文 。 与 前 面 讨论 的 编码 类 似 ， 它 假定 
文档 中 的 单词 彼此 独立 。 这 种 方法 还 有 一 个 局 限 : 会 导致 数据 稀 玻 ,使 得 统计 模型 的 训练 变 得 更 
加 困难 。 当 然 ， 这 也 形成 了 用 向 量 表示 单词 的 基本 动机 : 将 单词 的 语义 编码 在 其 表示 中 。 
































4.1.2 Word2vec 


单词 的 向 量 表示 可 以 实现 语义 相似 单词 的 连续 表示 , 其 中 相关 的 单词 会 被 映射 到 高 维 空间 内 
彼此 靠近 的 点 上 。 这 种 单词 表示 方法 基于 以 下 事实 : 有 相似 上 下 文 的 单词 也 有 相似 的 语义 。 
Word2vec 就 是 这 样 的 一 种 模型 ， 它 试图 通过 使 用 相 邻 的 单词 来 直接 预测 单词 并 学 习 小 且 密 集 的 
向 量 ( 也 称 为 家 入 )。Word2vec 可 从 原始 文本 中 学 习 词 艇 入 ， 是 一 种 在 计算 上 很 有 效率 的 无 监督 
模型 。 为 了 学 习 这 些 密集 向 量 ，Word2vec 有 两 种 形式 : 连续 词 袋 (CBOW ) 模型 和 跳 字 ( skip-gram ) 
模型 ( 由 Mikilov 等 提出 )。 


Word2vec 是 一 个 浅 层 的 三 层 神经 网 络 ， 其 中 第 一 层 和 最 后 一 层 构成 输入 和 输出 ， 中 间 层 构 
建 潜在 表示 以 便 将 输入 单词 转换 为 输出 向 量 表示 形式 。 
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Word2vec 单词 表示 法 可 以 探索 词 向 量 之 间 有 趣 的 数学 关系 ， 这 也 是 单词 的 一 种 直观 表达 。 
例如 ， 我 们 能 够 通过 使 用 单词 表示 来 找 出 该 表达 式 的 值 : 








king — man = queen — woman 


在 数学 上 , 此 表达 式 得 到 的 是 所 求 词 向 量 值 在 潜在 空间 的 等 价 性 。 另 一 方面 , 从 直觉 上 来 说 ， 
我 们 可 以 理解 为 : 从 king 中 删除 man 并 增加 woman 会 得 到 queeno 仅 当 利用 单词 的 位 置 关系 从 
而 理解 上 下 文 时 才能 建立 这 种 等 式 关 系 。 从 语义 上 可 以 明显 看 出 ,“ 国 王 ” 一 词 与 男人 同 处 一 个 
位 置 ， 与 “女王 ”和 “女人 ”一 词 的 出 现 方式 类 似 ， 如 图 4-1 所 示 。 
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图 4-1 词 向 量 转 换 


图 4-1 表明 词 向 量 是 如 何 从 woman 转换 到 queen 的 , 这 与 从 man 转换 到 king 具有 相似 之 处 。 
使 用 Word2vec 可 以 理解 该 关系 ,该 模型 使 用 了 一 个 简单 的 三 层 神 经 网 络 来 预测 周围 的 单词 (给 
定 输入 单词 ) 或 预测 该 单词 ( 给 定 周 围 的 单词 )。 这 两 种 方法 都 是 Word2vec 的 变 体 ， 其 中 使 用 输 
人 单词 来 预测 周围 单词 的 方法 是 跳 字模 型 ， 而 使 用 周围 单词 来 预测 目标 单词 是 连续 词 袋 模型 。 









































4.1.3 连续 词 袋 模型 


Word2vec 的 连续 词 袋 模型 从 一 组 输入 源 的 上 下 文 单词 来 预测 目标 单词 。 这 意味 着 在 句子 
“The cat sat on the dirty mat” 里 ， 连 续 词 袋 尝试 通过 使 用 上 下 文 单词 the、cat、sat、on 和 dirty 
来 预测 mat 的 目标 词 向 量 。 为 了 实现 这 一 点 ， 连 续 词 袋 构建 了 一 个 上 下 文 目标 单词 对 的 元 组 。 
因此 ， 对 于 一 组 上 下 文 词汇 (the、cat、sat、on 和 dirty )， 我 们 要 预测 单词 mat。 这 是 通过 


(the, mat)、(cat, mat)、(sat, mat)、(on，mat) 和 (dirty，mat) 实 现 的 。 
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4.1.4” 跳 字模 型 


跳 字模 型 执行 连续 词 袋 任务 的 逆 操 作 ， 通 过 使 用 目标 单词 来 预测 上 下 文中 的 相 邻 单 词 。 以 
先前 讨论 的 示例 “The cat sat on the dirty mat” 为 例 ， 跳 字 尝 试 使 用 mat 的 词 向 量 来 预测 cat 、sat、 
on 和 dirty 的 目标 词 向 量 。 因 此 ,对 于 背景 词 mat, 我 们 预测 目标 词 (the、cat、sat、on 和 dirty )。 
这 是 通过 (mat，the)、(mat，cat)、(mat，sat)、(mat，on) 和 (mat，dirty) 表 示 的 。 

1. 跳 字 模型 和 连续 词 袋 模型 的 架构 比较 
图 4-2 展示 了 跳 字 和 连续 词 袋 模型 架构 的 比较 。 
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图 4-2 显示 了 跳 字 如 何 通过 使 用 上 下 文中 的 单词 来 学 习 预 测 目标 单词 ， 而 连续 词 袋 会 根据 目 
标 单词 周围 固定 大 小 窗口 的 单词 ( 以 词 袋 表示 ) 来 学 习 预 测 目 标 单词 。 


通常 ， 当 数据 集 更 大 时 ， 跳 字 方 法 倾向 于 产生 更 好 的 单词 表示 。 因 此 我 们 在 本 章 的 剩余 部 分 
将 侧重 于 建立 一 个 跳 字模 型 。 同 时 ， 我 们 还 将 研究 使 用 TensorBoard 对 训练 好 的 词 嵌 入 进行 可 视 
化 ， 这 将 使 我 们 能 够 理解 词 租 入 的 原理 。 下 一 节 ， 我 们 将 遍历 代码 并 分 析 结 果 。 

2. 建立 一 个 跳 字模 型 

首先 导入 示例 所 需 的 Python 模块 : 

from tensorflow.contrib.tensorboard.plugins import projector 

import os 


import numpy as np 
import tensorflow as tf 
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TensorFlow 的 projector 模块 为 我 们 提供 了 在 TensorBoard 上 添加 词 向 量 以 进行 可 视 化 所 
需 的 方法 。 随 后 我 们 将 创建 一 个 字典 ， 其 中 将 包含 用 于 训练 Word2vec 模型 的 所 有 模型 参数 : 
# 有 关 模 型 训练 的 参数 








model_ params = { 
"vocab_size": 50000, # 最 大 单词 数 
"batch_size": 64, # 各 个 训练 步 的 批 大 小 
"embedding_size": 200，# 词 谋 入 向 量 维度 
"num negatives": 64, # 否定 词 采样 数 
"learning_rate": 1.0， # 训练 学 习 率 
"num train_ steps": 500000，# 模型 训练 步 数 


} 


我 们 将 定义 Word2vecModel 类 , 用 于 模型 的 定义 、 训 练 及 可 视 化 例 程 。 该 类 及 其 init 
方法 如 以 下 代码 所 示 : 


class Word2vecModel: 


为 Word2Vec 模型 初始 化 参数 








def __init__(self, data_set, vocab_size, 
embed_size, batch_ size, num sampled, learning rate): 

self.vocab_size = vocab_ size 

self.embed_ size = embed_size 

self.batch size = batch size 

self.num sampled = num_ sampled 

self.lr = learning_rate 

self.global_step = tf.get_variable('global_ step', 
initializer=tf.constant (0) ， 
trainable=False) 

self.skip_step = model params["skip_step"] 

self.data_set = data_set 


我 们 将 使 用 _init 方法 来 初始 化 Word2vec 模型 参数 。 如 先前 所 示 , 我 们 将 使 用 该 函数 初 
始 化 模型 的 学 习 率 、 批 大 小 、 词汇 大 小 及 般 入 向 量 大 小 。 之 后 利用 TensorFlow 中 的 Dataset API 
生成 器 导入 数据 ， 如 下 所 示 : 


data_set = tft.dqata.Dataset .from_g9enerator (generator， 
(七 ETE3227 tf int32).; 
(tf.TensorShape([model params["batch size"]]), 
tf.TensorShape( [model params["batch size"], 











1]))) 


我 们 使 用 Dataset API 从 生成 器 生成 样本 ， 并 使 用 数据 集 的 from_generator 方法 来 生成 
数据 (其 元 素 由 生成 器 生成 )。generator 的 参数 应 为 可 调用 对 象 并 返回 支持 iter () 协 议 的 对 
象 。 这 可 以 是 一 个 generator 水 数 。 生成 侨 生 成 的 元 素 必 须 与 给 定 的 output_types 参数 以 及 
可 选 的 output_shapes 参数 相 兼容 。 我 们 可 以 编写 一 个 生成 需 方 法 ， 如 以 下 代码 所 示 : 
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def generator(): 
yield from batch generator (model params["vocab size"], 
model_ params["batch_ size"], 
model_params["skip_window"], 
file params["visualization_ folder"]) 


我 们 将 定义 一 个 方法 用 于 导入 专门 为 其 创建 generator 的 数据 。 为 保证 TensorFlow 图 对 于 
Python 操作 定义 完好 ， 我 们 将 使 用 TensorFlow 的 name_scope: 


with tf.name_ scope('nce_ loss'): 

# 为 NCE 损失 构建 变量 

nce weight = tf.get_variablel('nce_weight'， 
shape=[self.vocab_ size, self.embed sizel], 
initializer=tf.truncated normal_ initializer( 
stddev=1.0 / (self.embed size xx 0.5))) 

nce_bias = tf.get_variable('nce bias', 

initializer=tf.zeros([model_ params["vocab_ size"]])) 








# 将 损失 函数 定义 为 NCE 损失 函数 

self.loss = tf.redquce_mean(tf.nn.nce_loss(weights=nce_weight， 
biases=nce_bias, 
labels=self.target_words, 
inputs=self.embedding, 
num_sampled=self.num_ sampled, 
num_classes=self.vocab_ size), 

name='loss') 


之 后 创建 男 一 个 name_scope， 以 初始 化 髓 入 矩阵 和 山 入 查找 (embedding lookup ), /六 可 
以 检索 数据 集中 任意 给 定单 词 的 舱 入 。 然 后 再 创建 一 个 name_scope 来 定义 损失 函数 : 使 用 噪 
声 对 比 估计 ( noise contrastive estimation，NCE ) 损失 将 多 项 式 分 类 问题 ( 例如 预测 下 一 个 单词 的 
问题 ) 转换 为 二 进 制 逻辑 回归 问题 。 


对 于 数据 集中 的 每 个 训练 样本 , 增强 型 分 类 吉 都 将 获得 一 个 真 值 对 ( 一 个 值 出 现在 中 心 词 上 ， 
另 一 个 值 出 现在 中 心 词 的 上 下 文中 ) 和 个 随机 选择 的 否定 对 ( 由 中 心 词 和 不 在 所 选单 词 上 下 文 
中 的 随机 单词 组 成 )。 通过 学 习 区 分 真 值 对 和 和 否定 对 ， 分 类 器 就 学 习 到 了 词 向 量 。 实 际 上 ， 这 种 
损失 确保 了 优化 的 分 类 器 可 以 预测 一 对 单词 的 好 坏 ， 而 非 预测 下 一 个 出 现 的 单词 。 下 面 ,我们 将 
定义 用 于 训练 的 优化 器 : 

self.optimizer = 


tf.train.GradientDescentOptimizer(self.1r) .minimize(self.l1loss, 
global_step=self.global_step) 


























GradientDescentOptimizer 是 实现 了 梯度 优化 算法 的 optimizer 方法 ， 它 允许 设 定 学 


习 率 参数 及 优化 执行 的 步 长 。 


最 终 , 我 们 将 使 用 损失 值 建立 直方 图 及 标量 摘要 以 监测 训练 过 程 中 的 损失 变化 , 同时 合并 所 
有 摘要 以 在 TensorBoard 上 展示 : 
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with tf.name_ scope('summaries'): 
tf.summary.scalar('loss', self.loss) 
tf.summary.histogram('histogram loss', self.loss) 
self.summary_op = tf.summary.merge_all() 











在 这 些 步 又 中 ,我们 训练 神经 网 络 进行 train_steps 并 监测 损失 。 训 练 的 目的 通常 是 降低 
损失 , 但 如 果 训 练 数据 较 少 、 训 练 时 间 较 长 并 使 用 更 高 维度 的 单词 表示 形式 , 通常 会 发 生 过 拟 合 。 
因此 需要 确保 模型 不 会 对 训练 数据 产生 过 拟 合 ， 还 需 确保 模型 具有 很 好 的 泛 化 能 力 。 


在 下 一 节 ， 我 们 将 在 TensorBoard 中 将 圣 入 上 映射 到 低 维 中 以 完成 可 视 化 。 














3. 词 宜 入 的 可 视 化 
我 们 将 训练 后 的 词 向 量 租 入 TensorBoard 并 通过 将 训练 好 的 向 量 投影 到 二 维 空 间 来 实现 可 视 
化 。 要 生成 此 类 投影 , 可 以 使 用 TensorBoard 中 的 tSNE 或 PCA 方 法 。 图 4-3 显示 了 使 用 PCA 生 
成 的 投影 在 TensorBoard 上 的 结果 。 
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图 4-3 

该 可 视 化 图 说 明了 TensorBoard 如 何 通 过 投影 显示 舱 入 ,但 这 种 可 视 化 效果 看 起 来 用 处 不 
大 ， 而 且 使 用 PCA 降 维 使 其 结果 在 查看 时 毫 无 意义 。 因 此 我 们 将 可 视 化 模式 切换 为 使 用 t-SNE 
进行 投影 ， 这 是 另 一 种 非常 适合 可 视 化 高 维 数据 的 降 维 技术 ， 结 果 如 图 4-4 所 示 。 
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4-4 


从 tSNE 投影 图 像 不 同 区 域 中 出 现 的 簇 可 以 看 出 ， 词 租 入 似乎 已 具有 某 些 模式 。 为 了 了 解 这 
些 簇 所 发 现 的 主题 , TensorBoard 允许 有 选择 地 放大 部 分 区 域 并 查看 其 中 的 基础 数据 ,操作 如 图 4-5 
所 示 。 
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当 我 们 在 TensorBoard 上 检查 一 个 孤立 的 簇 时 , 可 以 明显 看 到 这 些 向 量 已 捕获 了 一 些 有 关 
单词 及 其 相互 关系 的 常规 语义 信息 。 有 趣 的 是 ， 所 选 特定 类 别 中 的 单词 具有 一 个 英文 字符 的 
长 度 。 


现在 我 们 将 搜寻 一 个 特定 的 单词 并 查看 它 最 近 的 邻居 ， 如 图 4-6 所 示 。 
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图 4-6 ”germany 一 词 的 艇 板 


在 本 例 中 , 我 们 搜寻 单词 germany 并 发 现 最 靠近 给 定单 词 的 是 russia、italy 和 britain 等 。 这 
些 都 是 国家 的 名 字 。 有 趣 的 是 ， 我 们 从 未 以 标注 或 任何 其 他 形式 向 模型 提供 这 些 信 息 。 


关于 模型 发 现 词 间 语义 关联 的 另 一 个 示例 如 图 4-7 所 示 。 
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图 4-7 book 一 词 的 复 板 


这 个 例子 表明 最 靠近 单词 book 的 是 story 、novel 和 album。 这 种 语义 关联 被 模型 发 现 佐证 
了 即使 没有 提供 先决 条 件 ，Word2vec 也 大 有 用 处 。 





4.2 ”从 单词 到 文档 启 入 


Word2vec 提供 了 一 种 生成 恰当 词 向 量 的 优雅 方法 。 然 而 因为 每 个 文档 中 单词 的 数量 是 可 变 
的 , 句子 或 文档 级 别 的 向 量 表示 对 于 词 向 量 来 说 并 不 总 是 存在 的 。 因此 将 词 角 入 扩展 到 文档 嵌入 
的 最 简单 方法 之 一 是 对 文档 中 可 用 的 各 个 词 膀 入 进行 平均 。 


因此 ， 文 档 骨 入 可 用 以 下 公式 表示 : 



































Emb(d) = Y wx Emb(w,) 


i=1 


在 该 公式 中 ， 为 了 获得 最 终 的 文档 能 和 人 入， 我们 给 予 句 子 中 所 有 单词 以 相同 的 权重 ， 因 此 有 
wi= 1/m。 然 而 这 种 方法 假定 文档 中 的 所 有 单词 对 于 表达 文档 的 含义 都 具有 相同 的 贡献 。 


4.3 Sentence2vec 





前 面 所 讨论 方法 ( 用 于 获取 文档 级 向 量 表示 ) 的 主要 缺点 之 一 是 文档 中 出 现 的 单词 权重 相等 ， 
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而 这 抑制 了 句子 中 特定 单词 的 重要 性 。 实 际 上 ,这 些 单词 为 文档 增加 了 含义 和 价值 。 我 们 用 该 方 
法 构建 文档 向 量 表 示 的 具体 示例 来 对 这 一 点 进行 讨论 ， 看 看 “Jack and Jill went up the hill to fetch 
a pail of water”。 在 该 句子 中 ,提供 与 所 发 生动 作 有 关 的 上 下 文 信息 最 多 的 单词 是 Jack、Jill、 hill、 
fetch 、pail 和 water。 但 是 先前 的 方法 将 对 句子 中 的 每 个 单词 赋予 相等 的 权重 。 

之 前 讨论 过 的 一 种 有 趣 方法 是 使 用 词 向 量 的 加 权 平 均值 , 而 非 对 单词 进行 平均 加 权 。 计算 单 
词 权 重 的 一 种 方法 是 利用 文档 中 存在 的 标记 使 用 每 个 单词 的 TF-IDF 权重 。 这 种 方法 背后 逻辑 在 
于 : 文档 中 频繁 出 现 的 单词 并 不 能 传达 太 多 信息 ,而 不 同文 档 中 频繁 出 现 的 单词 传达 了 有 关 该 单 
词 重要 性 的 更 多 信息 。 


TF-IDF 权重 可 用 以 下 公式 表示 : 



























































tf -idf,, 三 ta xidf, 
在 该 公式 中 ，#w/-idfis 基 于 项 1 及 文档 4 表示 了 权重 ， 如 下 所 示 : 


口 当 项 1 仅 在 语料库 的 少许 文档 中 出 现时 ， 其 权重 值 最 高 ; 

口 当 该 项 在 同一 文档 中 出 现 多 次 或 者 在 多 个 文档 中 出 现 ( 导致 单词 的 弱 相 关 ) 时 ， 其 权重 
值 会 降低 ; 

口 当 该 项 在 所 有 文档 中 均 出 现 并 在 每 个 文档 中 出 现 多 次 时 ， 其 权重 值 将 达到 最 低 。 


因此 , 得 到 良好 文档 级 别 表示 的 方法 在 于 对 文档 中 的 各 个 单词 进行 权重 归 一 化 , 并 用 归 一 化 
后 的 值 衡量 单词 的 权重 。 这 种 方法 不 仅 对 于 文档 表示 十 分 有 效 ， 而 且 因 为 忽略 了 低 权重 单词 ， 所 
以 计算 成 本 也 很 低 。 与 先前 方法 类 似 ， 我 们 可 以 用 下 式 表达 Sentence2vec 骨 人 : 

















Emb(d) = Dw x Emb(w,) 
i-l 


两 者 的 主要 区 别 在 于 ,现在 权重 wi 通过 TF-IDF 进行 了 计算 ， 并 发 生 了 改变 。 最 终 的 谍 和 人 将 
是 词 铭 入 向 量 的 加 权 平 均 。 

使 用 原始 权重 还 有 一 些 蔡 代 方法 , 包括 对 权重 应 用 阔 值 , 从 而 将 权重 转换 为 二 进 制 格 式 。 因此， 
国 值 越 低 ， 用 于 产生 文档 表示 的 单词 数量 就 越 多 ,也 就 需要 更 多 计算 。 与 此 相反 ,高 闵 值 权重 将 
显著 减少 用 于 表示 文档 的 单词 数量 , 从 而 降低 计算 成 本 ,但 这 可 能 会 忽略 有 助 于 文档 表达 的 单词 。 


























4.4 Doc2vec 


Mikilov 等 人 提出 了 Word2vec 模型 的 一 个 简单 扩展 , 并 将 其 应 用 于 文档 级 别 。 在 这 种 方法 中 ， 
唯一 的 文档 ID 被 附加 到 文档 中 以 获得 文档 向 量 。 文 档 中 的 单词 参与 训练 ， 以 生成 词 松 入 的 平均 
《或 串联 )， 并 最 终生 成 文档 能 入 。 因 此 ， 在 之 前 讨论 的 示例 中 ，Doc2vec 模型 数据 如 下 所 示 : 
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口 TensorFlow is an open source software library 





口 Python is an open source interpreted software programming language 
与 先前 的 方法 相反 ， 文 档 列 表现 在 如 下 所 示 : 


OD [DOC 01, TensorFlow, is, an, open, source, software, library] 


DQ [DOC 02, Python, is, an, open, source, interpreted, software, programming, language] 


此 Doc2vec 模型 看 起 来 与 我 们 在 连续 词 袋 中 讨论 的 方法 非常 相似 。 因 此 当 我 们 训练 词 向 量 w 
时 , 将 同时 训练 每 个 文档 的 文档 向 量 D。 当 训练 完成 后 ， 就 可 以 同时 得 到 词 向 量 与 文档 向 量 。 该 方 
法 与 连续 词 袋 的 相似 之 处 在 于 当 给 定 上 下 文 单词 时 模型 会 尝试 预测 目标 单词 。 因 此 , 在 本 例 中 , 模 
型 会 使 用 DOC 01 、TensorFlow is 和 an 来 预测 open。 该 模型 也 称 为 段落 向 量 分 布 式 内 存 (paragraph 
vector-distributed memory，PV-DM )。 文 档 向 量 背 后 的 思想 是 代表 文档 中 所 讨论 主题 的 语义 上 下 文 。 






































与 Word2vec 相似 ，PV-DM 模型 的 一 种 变 体 是 段落 向 量 -分 布 式 词 袋 ( paragraph vector- 
distributed bag of words，PV-DBOW )， 它 类 似 于 Word2vec 的 跳 字模 型 。 在 该 版 本 中 ， 模 型 在 给 
定 上 下 文 单词 的 情况 下 尝试 预测 目标 词 向 量 。 例 如 ， 模 型 使 用 DOC_01 来 预测 单词 TensorFlow、 
is、an 和 open。Doc2vec 相对 于 Word2vec 的 一 项 潜在 优势 在 于 无 须 存 储 词 向 量 。 


文档 能 入 可 视 化 


让 我 们 像 之 前 一 样 进行 可 视 化 , 看 看 Doc2vec 如 何 训练 文档 且 最 终 的 文档 怠 和 人 如 何 使 理解 文 
档 潜 在 主题 成 为 可 能 ， 如 图 4-8 所 示 。 
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在 该 可 视 化 图 中 可 以 看 到 ， 硅 上 角 和 席 部 有 一 些 可 见 对 
注 就 可 以 就 指出 文档 的 主题 。 下 面 看 看 这 


疾 。 这 表明 我 们 无 须 这 些 主 
簇 包含 的 内 容 ， 如 图 4-9 所 示 。 
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图 4-9 


在 上 面 的 簇 中 可 以 看 到 Doc2vec 发 现 了 正在 讨论 malware attacks 的 复 。 中 间 的 可 视 化 部 分 
指出 了 该 复 ， 而 右边 的 列表 则 显示 了 文档 及 其 与 “is this government attempt to destroy cryptocurrency” 
的 相似 性 得 分 。 尽 管 文档 本 身 并 不 包含 malware 或 attack 等 任何 单词 , 但 Doc2vec 通过 使 用 上 下 
文 (ransomware 在 文档 中 的 出 现 ) 依然 发 现 该 文档 在 讨论 malware attacks。 下 面 来 探索 咎 入 投影 








器 展示 的 另 一 个 复 ， 如 图 4-10 所 示 。 
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Nearest points in the original space: 

archived from https://news,ycombinator.,, 0,127 
archived from https://twitter.com/swifto.. 0.145 
archived from https://en.wikipedia.org/.。 0.158 


archived from https://8ch.net/pol/res/9.. 0.165 
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archived from https://www.wired.com/2.. 








图 4-10 
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该 艇 展示 了 语料库 中 与 其 他 文档 完全 隔离 开 来 的 部 分 文档 。 这 些 文档 探讨 了 保存 它们 的 
URL 并 且 包 含 URL 和 文档 保存 的 内 容 。 与 其 他 文档 类 似 , 簇 中 剩余 的 文档 也 包含 URL 及 文本 ， 
如 图 4-11 所 示 。 




















单词 矩阵 文档 下 阵 ” 辆 
an open source D_01 an open source 
CBoW Doc2Vec 
图 4-11 


4-11 将 Doc2vec 与 连续 词 袋 的 Word2vec 进行 了 比较 ,这 也 强调 了 从 Word2vec 到 Doc2vec 
模型 的 清晰 拓展 : 从 学 习 词 向 量 到 文档 向 量 。 





4.5 ”小 结 


本 章 讨论 了 Word2vec 及 其 变 体 ， 介 绍 了 用 于 理解 词 间 关系 的 跳 字 模型 代码 ， 随 后 使 用 
TensorBoard 进行 了 词 般 入 的 可 视 化 并 查看 了 各 种 投影 给 可 视 化 带 来 的 帮助 。 接 下 来 讨论 了 从 
Word2vec 到 创建 文档 表示 的 逻辑 拓展 ， 并 使 用 TF-IDF 进行 了 模型 提升 及 优化 。 最 后 ， 我 们 探讨 
了 Doc2vec 及 其 变 体 以 建立 文档 级 别 的 向 量 表示 ， 并 展示 了 通过 TensorBoard 查看 文档 向 量 以 发 
现 文档 的 主题 。 

















在 下 一 章 , 我 们 将 了 解 使 用 深度 神经 网 络 进行 文本 分 类 , 还 会 介绍 用 于 构建 文本 分 类 咒 的 不 
同 神经 网 络 并 分 别 讨论 其 架构 的 优 缺 点 。 
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使 用 LSTM 进行 文本 分 类 























文本 分 类 指 的 是 将 自然 语言 或 非 结 构 化 文本 标记 为 预定 义 集中 的 类 别 。 它 的 应 用 包括 识别 产 
品评 论 中 的 积极 或 消极 情绪 , 对 新 闻 文章 进行 分 类 , 以 及 根据 顾客 在 社会 媒体 上 对 产品 的 交流 进 
行 客户 细 分 等 。 一 个 文本 分 类 的 真实 示例 是 在 Gmail 中 使 用 机 器 学 习 进行 垃圾 邮件 自动 检测 。 本 
章 的 主要 目的 是 使 你 理解 并 熟悉 用 于 文本 分 类 的 深度 学 习 实 战 方法 。 


第 2 章 简 要 提 及 了 如 何 应 用 经 典 机 带 学 习 方 法 用 NLTK 和 sklearn 的 词 袋 模型 来 进行 文本 分 
类 。 本 章 将 为 更 深入 地 研究 如 何 使 用 深度 学 习 方 法 进行 文本 分 类 ， 并 将 重点 放 在 使 用 RNN ( 例 
如 LSTM 和 GRU ) 进行 文本 分 类 上 。 但 为 完整 起 见 , 我 们 还 将 介绍 CNN。 为 拓宽 该 话题 ,我 们 
还 将 介绍 一 个 相关 的 无 监督 学 习 方 法 ， 名 为 主题 建 模 。 总 结 一 下 ， 以 下 是 本 前 涵 盖 的 主题 : 


















































口 主题 建 模 

口 使 用 CNN 进行 文本 分 类 

口 使 用 RNN 进行 文本 分 类 

口 基于 迁移 学 习 的 文本 分 类 

口 用 于 文本 分 类 的 最 新 深度 学 习 方 法 概述 


5.1 文本 分 类 数据 
在 深入 探讨 文本 分 类 中 的 机 器 学 习 问 题 之 前 , 我 们 看 一 下 网 上 可 用 的 各 种 开放 数据 集 。 许 多 


分 类 任务 可 能 需要 大 批量 标注 的 文本 数据 , 而 这 些 数据 可 大 致 分 为 二 分 类 、 多 分 类 和 多 标签 的 “。 
表 5-1 展示 了 在 研究 和 某 些 比赛 (例如 Kaggle ) 中 用 于 基准 测试 的 一 些 流行 数据 集 。 



































表 5-1 
数据 集 名称 类 别 
1 IMDb movie Dataset 二 分 类 
2 Twiiter Sentiment Analysis Dataset 二 分 类 








多 分 类 和 多 标签 的 区 别 在 于 ， 多 分 类 数据 仅 属 于 同一 类 别 ， 而 多 标签 数据 可 以 属于 多 个 类 别 。 一 一 译 者 注 
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( 续 ) 
数据 集 名 称 类 别 
3 YouTube Spam Collection Dataset 二 分 类 
4 News Aggregator Dataset 多 分 类 
5 Yelp reviews 多 标签 
6 Amazon reviews 多 分 类 
7 Reuters Corpora 多 标签 /多 分 类 





本 章 也 会 使 用 之 前 用 过 的 一 些 数据 集 作为 示例 。 尽 管 表 5-1 并 不 详尽 ， 但 其 有 助 于 你 开始 学 
试 文本 分 类 和 主题 分 类 任务 。 
5.2 ”主题 建 模 


当 我 们 有 一 个 文档 集合 却 不 清楚 其 中 各 个 文档 的 分 类 时 , 主题 模型 可 以 帮助 我 们 找到 文档 所 
属 的 大 臻 类别。 该 模型 将 每 个 文档 都 视 为 主题 的 混合 ， 其 中 可 能 包含 一 个 主要 主题 。 


比如 ,假设 有 如 下 句子 : 














口 Eating fruits as snacks is a healthy habit 
口 Exercising regularly is an important part of a healthy lifestyle 





口 Grapefruit and oranges are citrus fruits 
这 些 句 子 的 主题 模型 输出 可 能 会 如 下 所 示 。 


口 主题 A: 40% healthy、20% fruits 、10% snacks 

口 主题 B: 20% Grapefruit、20% oranges 、10% citrus 
口 句子 1 和 2: 80% 主 题 A、20% 主 题 B 

口 句子 3: 100% 主 题 B 


从 模型 的 输出 可 以 推测 出 主题 A 与 健康 ( health ) 有 关 ， 主 题 B 与 水 果 ( fruits ) 有 关 。 尽 管 
我 们 先前 不 知道 这 些 主题 ， 但 是 该 模型 输出 了 文档 中 与 健康 、 运 动 和 水 果 相 关 的 单词 的 概率 。 


从 这 些 例子 可 以 清楚 地 看 出 ,主题 建 模 作 为 一 种 无 监督 的 学 习 方 法 , 在 几乎 没有 用 于 文本 分 
类 的 标签 时 , 有 助 于 发 现 文档 的 结构 或 模式 。 主题 建 模 最 流行 的 算法 是 隐 含 狄 利克 雷 分 布 ( Latent 
Dirichlet Allocation，LDA )。LDA 的 原始 论文 使 用 变 分 贝 叶 斯 方法 来 估计 单词 属于 不 同 主题 的 概 
率 。 该 算法 的 详细 信息 可 以 在 论文 “Latent Dirichlet Allocation” 中 找到 。 因 为 这 超出 了 本 书 的 范 
围 ， 所 以 本 书 不 作 歼 述 。 下 面 来 看 一 个 使 用 LDA 进行 主题 建 模 的 示例 。 对 于 LDA 模型 ， 我 们 将 
使 用 gensim 库 从 NLTK 网 络 文本 语料库 的 示例 文本 中 找到 主题 第 2 章 已 对 该 语料库 做 了 介绍 )。 
该 示例 的 完整 Jupyter Notebook 可 在 本 书 代码 库 中 找到 ( Chapter05/01_example.ipynb )。 首 先 ， 我 
们 将 为 示例 导入 必要 的 Python 模块 
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from nltk.corpus import webtext, stopwords 
import gensim 

import random 

from pprint import pprint 

import numpy as np 

import logging 
#logging.basicConfig(format='%$(asctime)s : %(levelname)s : %$(message)s', 
level=logging .INFO) 


这 里 导入 了 nltk、webtext 和 stopwords 语料库 。 如 需 使 用 gensim 模块 , 应 使 用 pip 安 
装 需 来 安装 : 
pip install gensim 


以 上 代码 会 在 系统 上 安装 gensim， 接 下 来 的 代码 将 从 对 应 文本 语料库 中 读 入 句子 : 


firefox = webtext.sents('firefox.txt') 
wine = webtext.sents('wine.txt') 
pirates = webtext.sents('pirates.txt') 


sents 图 数 从 各 个 文本 语料库 中 读 和 句子。 来 自 Firefox 论坛 的 句子 、 电 影 《 加 勒 比 海盗 》 
( Pirates of the Caribbean ) 的 台 本 以 及 wine 的 评论 都 通过 以 下 代码 被 添加 到 了 列表 中 : 

all_docs = [] 

all_docs.extend (firefox) 

all_docs.extend (pirates) 


all_docs.extend (wine) 
random.shuffle(all_docs) 


这 将 把 所 有 文本 文档 整理 进 Python 列表 中 , 并 对 列表 进行 混 洗 以 转换 为 随机 文本 列表 集合 。 
稍 后 我 们 将 使 用 以 下 代码 来 验证 主题 模型 能 否 区 分 来 自 NLTK 网 络 文本 语料库 的 三 个 不 同 主题 
类 别 的 句子 : 


























I 








docs = [[word for word in doc if word not in stopwords.words('english')] 
for doc in all_docs] 
docs = [doc for doc in docs if len(doc)&gt;1] 





在 以 下 代码 中 ， 我 们 使 用 NLTK 中 的 stopwords 语料库 从 文本 中 移 除 停 用 词 ， 同 时 忽略 单 
词 长 度 小 于 1 的 所 有 文本 : 

chunksize=len (docs) 

dictionary = gensim.corpora.Dictionary (docs) 

corpus = [dictionary.doc2bow(doc) for doc in docs] 

model = gensim.models.LdaModel (corpus=corpus, id2word=dictionary, 

num topics=3,passes=20) 

我 们 使 用 gensim 中 的 aictionary 类 将 文本 集合 docs 转换 为 词 袋 表 示 并 存储 在 corpus 
变量 中 。 字 典 将 文档 转换 为 稀 琉 词 袋 向 量 ， 并 且 赋 予 每 个 单词 或 词 元 对 应 的 ID。 生 成 的 词 袋 向 
量 与 对 应 字典 将 被 传递 给 LdaModel 以 训练 ID 到 单词 的 映射 。 同 样 将 主题 数 设置 为 3， 这 也 是 
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我 们 从 NLTK webtext 语料库 中 获得 的 主题 数目 。 最 后 ， 将 模型 的 passes ( 训练 的 轮 数 ) 设置 
为 20。 以 下 代码 完成 了 从 语料库 提取 热门 主题 的 操作 : 
top_topics = model.top_topics (corpus) 


BLiING( Tone Le ") 
print (top,_topics[0][0]) 





BrinG( "TODLe 2 Ly 
print ("Topic 3: ") 


( 
( 
print (top_topics[1][0]) 
( 
( 


print (top_topics[2][0]) 


以 下 代码 显示 了 这 些 主题 以 及 各 个 单词 在 其 中 出 现 的 概率 : 


Topic 1: 

[(0.029538315, '.'), (0.025298702, '"'), (0.018974159, "'"), (0.017001661, 

'-'), (0.0097839413, '('), (0.0089947991, 'page'), (0.0080595175, ')'), 

(0.0076006982, 'window'), (0.0075753955, 'Firefox'), (0.0061700493, 

'open'), (0.0058493023, 'menu'), (0.0057583884, 'bar'), (0.005752211, ':'), 5 
(0.0057242708, 'tab'), (0.0054682544, 'new'), (0.0053855875, 'Firebird'), 

(0.0052021407, ‘work'), (0.0050605903, 'browser'), (0.00455163, '0'), 

(0.0045419205, 'button')] 


Topic 2: 

[(0.10882618, '.'), (0.048713163, ','), (0.033278842, '-'), (0.019521466, 
'I'), (0.018609792, '***'), (0.011298033, 'fruit'), (0.010273052, 'good'), 
(0.0097078849, 'A'), (0.0089780623, 'wine'), (0.0089215562, "'"), 


(0.0087491088, 'bit'), (0.0080983331, 'quite'), (0.0072782212, 'Top'), 
(0.0061755609, '****'), (0.0060614017, '**'), (0.005842932, 'nose'), 
(0.0057750815, 'touch'), (0.0049686432, 'Bare'), (0.0048470194, 'Very'), 
(0.0047901836, 'palate')] 


Topic 3: 

[(0.051035155, ','), (0.043318823, ':'), (0.037644491, '.'), (0.029482145, 
'['), (0.029230012, ']'), (0.023068342, "™'"), (0.019555457, '!'), 
(0.012494524, 'Jack'), (0.011483309, '?'), (0.010315109, '*'), 
(0.008776715, 'JACK'), (0.008776715, 'SPARROW'), (0.0074223313, '-'), 
(0.0061529884, 'WILL'), (0.0061529884, 'TURNER'), (0.0060977913, ‘'Will'), 
(0.0055771996, 'I'), (0.0054870662, '...'), (0.0041205585, 'ELIZABETH'), 


(0.0041205585, 'SWANN')] 
尽管 输出 看 上 去 甚至 包含 了 标点 符号 , 但 基于 单词 在 各 个 主题 中 的 出 现 频 率 仍 可 以 看 出 模型 


输出 的 一 些 模 式 。Topic 1 似乎 与 Firefox 论坛 有 关 ，Topic 2 与 wine 评论 相符 ， 而 Topic 3 
则 来 自 于 《加 勒 比 海盗 》 电 影 台 本 。 




















主题 建 模 与 文本 分 类 


正如 以 上 示例 所 示 , 主题 建 模 之 间 并 非 互 斥 的 , 这 是 因为 它 将 文档 建 模 为 主题 的 混合 。 比如， 
可 以 将 一 个 文档 分 类 为 70% 主 题 A 及 30% 主 题 B。 但 文本 分 类 则 唯一 地 将 文档 归 为 特定 类 别 。 
然而 , 文本 分 类 需要 经 过 标记 的 数据 ， 而 这 些 数据 可 能 并 不 总 是 可 用 的 。 我 们 也 可 以 将 主题 模型 
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的 输出 用 作文 本 分 类 的 特征 , 这 在 某 种 程度 上 可 能 会 提高 分 类 的 准确 率 。 主 题 模型 还 可 用 于 快速 
创建 手动 标注 的 数据 并 随后 将 其 用 于 训练 文本 分 类 器 。 我们 已 经 学 习 了 主题 建 模 , 并 看 到 了 它 与 
文本 分 类 的 区 别 及 联系 。 现 在 让 我 们 使 用 深度 学 习 模型 探索 文本 分 类 吧 。 
5.3 ”用 于 文本 分 类 的 深度 学 习 元 染 构 

深度 学 习 文本 分 类 模型 通常 由 如 下 三 部 分 按 顺序 相连 组 成 : 


口 谋 入 层 
口 深层 表示 组 件 
口 全 连接 部 分 


我 们 将 以 下 几 小 节 中 逐一 进行 讨论 。 





























5.3.1 骨 入 层 


给 定 一 系列 单词 ID 作为 输入 , 甬 和 人 层 会 将 这 些 ID 转换 为 密集 词 向 量 的 输出 列表 。 正 如 我 们 
在 第 3 章 所 看 到 的 那样 ， 词 向 量 能 够 捕获 单词 间 的 语义 。 在 诸如 TensorFlow 的 深度 学 习 框架 中 ， 
这 部 分 工作 通常 由 存储 了 查找 表 的 骨 人 查找 层 处 理 ， 将 数字 ID 所 表示 的 单词 映射 到 密集 向 量 表 


示 形 式 。 
































5.3.2 ”深层 表示 


深层 表示 将 能 入 向 量 序列 作为 输入 , 并 将 其 转化 为 压缩 后 的 表示 形式 。 压 缩 表 示 能 有 效 捕获 
文本 中 单词 序列 的 所 有 信息 。 深 度 表示 部 分 通常 由 RNN 获取 ， 但 也 可 以 使 用 CNN 完成 。 对 于 
RNN, 文本 的 压缩 表示 形式 是 最 后 一 个 时 间 步 之 后 网 络 输 出 的 最 终 隐藏 状态 。 在 CNN 中 ， 这 则 
是 最 后 一 层 的 输出 ( 通常 是 最 大 池 化 层 )。 因 此 ，RNN 和 CNN 输出 均 能 够 捕获 文本 输入 的 深层 
表示 。 


















































5.3.3 ”全 连接 部 分 


全 连接 部 分 从 RNN 或 CNN 中 获取 深度 表示 ,并 将 其 转换 为 最 终 输出 的 类 别 或 类 别 所 对 应 的 
分 数 。 该 组 件 由 全 连接 层 、 批 标准 化 和 用 于 正则 化 的 dropout 层 (可 选 ) 组 成 。 

现在 , 我 们 已 经 看 到 了 座 度 学 习 文 本 分 类 需 的 通用 元 架构 。 在 以 下 各 节 中 , 我 们 将 结合 该 架 
构 以 深入 研究 文本 分 类 器 的 实例 。 具 体 来 说 , 我 们 将 研究 如 何 识别 YouTube 视频 的 垃圾 评论 以 及 
如 何 对 新 闻 文 章 进 行 分 类 。 
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5.4 使 用 RNN 识别 YouTube 视频 垃圾 评论 
作为 首 个 示例 ， 我 们 将 研究 在 YouTube 视频 评论 中 识别 垃圾 评论 的 问题 。 该 示例 的 完整 


Jupyter Notebook 文件 可 在 本 书 代 码 存储 库 中 找到 ( Chapter05/02_example.ipynb )。 所 用 数据 包含 
带 有 二 进 制 标签 的 评论 ， 这 些 标 签 指明 了 评论 是 真实 的 还 是 垃圾 。 以 下 代码 将 CSV 格式 的 评论 


加 载 


到 pandas DataFrame 中 : 


comments_df_list = [] 
comments_file = 








KatyPerry.csv', 'data/Youtube03-LMFAO.csv', 
'data/Youtube04-Eminem.csv', 'data/Youtube05-Shakira.csv'] 


for f in comments_file: 
df = pd.read csv(f,header=0) 
comments_df_list.append (df) 
comments_df = 
comments_df = 
print (comments_df.shape) 
comments_df.head(5) 








pd.concat (comments_df_list) 
comments_df.sample (frac=1.0) 











如 表 5-2 所 示 输 出 显示 了 不 同 领 域 的 YouTube 评论 示例 。 


['data/Youtube01l-Psy.csv', 'data/Youtube02- 





表 5-2 
COMMENT _ID AUTHOR DATE CONTENT CLASS 
102 zl12dfrSirwrSchwm3232gvnq2laqcdezn04 Carlos 2015-05-22T15: I am going to blow my 0 
Rueda 04:20.310000 mind 
117 z133ibkihkmaj3bfq22rilaxmp2yt54nb Debora 2015-05-21T14: CBEST SONG EVER 0 
Favacho 08:41.338000 X3333333333 
(Debora 
Sparkle) 
331 _2viQ Qnc68Qgq98mOmmx4rlprYiD6aYg Hidden 2013-08-01T09: Hi. Check out and share 1 
Mb2x3bdupEM Love 19:56.654000 Our songs. 
322 zl3cedgolkfvw3xey22kcnzrfm3egjj0z Rafael 2015-01-25T20: Check out this video on 1 
Diaz Jr 57:46.039000 YouTube: 
133 LneaDw26bFugQanw0OUtVOqzEgWt6mB Jacob NaN You guys should check 1 
DOk6SsEV7u968 Johnson out this 
EXTRAORDINARY 
W... 


中 可 


( 类别 ) 列 则 将 垃圾 评论 设置 为 1、 有 效 评论 设置 
的 平均 值 用 作 每 个 评论 的 最 大 长 度 , 凡 单 词 数 大 于 最 大 


大 小 


这 里 ,我 们 将 来 自 五 个 受 欢迎 YouTube 视频 的 .csv 文件 加 载 到 pandas DataFrame 中 。 从 输出 
以 看 到 , 它 同时 显示 了 有 效 评论 和 垃圾 评论 .CONTENT( 内 容 ) 列 包含 评论 的 文本 ,而 CLASS 
































不 变 ; 











为 0。 通过 使 用 以 下 代码 ,我 们 将 所 有 并 
R 制 的 评论 都 将 被 截断 以 保持 训练 数据 的 





Fi 论 长 度 





average_comments_size = int(sum([len(c) for c in 
comments_dqf .CONTENT] ) /comments_dqf.shape[0]) 
print (average_ comments_size) 


70 第 5 章 使 用 LSTM 进行 文本 分 类 





我 们 使 用 vocabulary_processor 来 预 处 理 所 有 评论 ， 并 将 数据 划分 为 80% 的 训练 集 和 
20% 的 测试 集 ， 如 以 下 代码 所 示 : 


vocabulary_processor = 
tf.contrib.learn.preprocessing.VocabularyProcessor (average comments_size) 
XxX transform = vocabulary_processor.fit transform(comments_df.CONTENT) 
XxX_transform = np.array (list (Xx_transform)) 

y = comments_df.CLASS.values 

xX_ train, XxX _ test, y_train, y_test = 
model_selection.train test_split (x _ transform, 

y, test_size=0.2, random state=42) 

n_ words = len(vocabulary_processor.vocabulary_) 


在 本 例 以 及 本 章 后 续 示 例 中 ,我 们 将 利用 TensorFlow estimator API 来 创建 、 训 练 和 测试 模型 。 
TensorFlow 中 的 评估 器 ( estimator ) 提供 了 一 个 易于 使 用 的 界面 , 可 用 于 构建 图 形 、 初 始 化 变量 、 
创建 检查 点 文件 并 保存 摘要 供 TensorBoard 查看 。 使 用 以 下 代码 创建 est imator: 


def get_estimator_spec(input_logits，out_lb，train_predqict_m) : 
preds_cls = tf.argmax(input_logits, 1) 
if train predict m == tf.estimator.ModeKeys .PREDICT: 
return tf.estimator.EstimatorSpec!\( 
mode=train predict_m, 
predictions={ 
'pred_class': preds_cls, 
'pred_ prob': tf.nn.softmax(input_logits) 

















} 
tr_ 1 = tf.losses.sparse_softmax_cross_entropy (labels=out_l1b, 
logits=input_logits) 
if train predict m == tf.estimator.ModeKeys .TRAIN: 
agdm_ opt = tf.train.AdamOptimizer (learning_ rate=0.01) 
tr_op = adm opt.minimize(tr_1, 
global_step=tf.train.get_global_step()) 
return tf.estimator.EstimatorSpec (train predict m, loss=tr_]1, 
train_ op=tr_op) 
eval_metric ops = {'accuracy': tf.metrics.accuracy (labels=out_l1b, 
predictions=preds_cls)} 
return tf.estimator.EstimatorSpec (train predict m, loss=tr_1, 
train_op=tr_op) 





我 们 使 用 AdamOptimizer 来 优化 tf.losses.sparse_softmax_cross_entropy 损失 也 
数 。 当 给 定 logit 模型 及 两 个 类 的 概率 分 布 和 真实 标签 时 ， 它 能 计算 交叉 箭 : 


def rnn_ model_fnl(features, labels, mode): 

comments_wd_vec = tf.contrib.layers.embed_ sequencel 

features [COMMENTS_FT], vocab_ size=n words, embed_ dim=EMBED_DIMENSION) 

comments_word_list = tf.unstack (comments_wd vec, axis=1) 

rnn_cell = tf.nn.rnn cell.GRUCell (average comments_size) 

_, Comments_encoding = tf.nn.static rnn(rnn cell, comments word_ list, 
dtype=tf.float32) 

logits = tf.layers.dense(inputs=comments_encoding, units=2, 
activation=None) 
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return get_estimator_spec(input_logits=logits, out_lb=labels, 
train predict_ m=mode) 


如 上 一 节 所 述 , 在 用 于 模型 文本 分 类 的 元 架构 中 , 我 们 使 用 了 一 个 嵌入 层 , 后 接 一 个 GRUCel1。 
GRU 的 输出 被 馈送 到 计算 1ogits 的 密集 层 , 然后 logits 的 输出 被 传递 到 softmax 层 以 计算 各 
个 类 别 的 预测 概率 。 本 例 所 使 用 的 GRU 单元 与 LSTM 相似 ， 不 同 之 处 在 于 前 者 输出 的 隐藏 状态 
不 包含 控制 门 〈 因 此 与 GRU 相 比 ，LSTM 多 了 一 个 额外 的 门 )。 除 此 之 外 ，GRU 还 可 能 也 无 法 
记 住 长 期 的 单词 联系 。 但 是 对 于 此 特定 任务 ,两 者 的 差异 并 不 明显 。 你 还 可 以 尝试 在 代码 中 使 用 
LSTM 去 替换 GRU 单元 ， 具 体 代 码 如 下 所 示 : 


run_config = tf.contrib.learn.RunConfig() 

run_config = 

run_config.replace (model dir='/tmp/models/',save_ summary_steps=10,1o0g_ step_ 
count_steps=10) 

classifier = 
tf.estimator.Estimator (model_ fn=rnn model_fn,config=run_ config) 


我 们 使 用 Runconfig 在 /tmp/models 目录 下 保存 模型 检查 点 , 并 且 将 日 志 记 录 和 摘要 步 进 频 
率 从 默认 值 100 修改 为 10， 以 便 更 好 地 在 TensorBoard 中 显示 。 你 也 可 以 在 代码 中 对 于 这 些 值 进 
行 相应 修改 。 最 后 ， 使 用 以 下 代码 对 模型 进行 200 步 训练 : 


train_ input_fn = tf.estimator.inputs.numpy_input_fnl( 
X={COMMENTS_FT: X train}, 
y=y_train, 
batch_ size=128, 
num_epochs=None, 
shuffle=True) 
classifier.train(input_fn=train input_fn, steps=200) 
Output 
INFO:tensorflow:Saving checkpoints for 200 into /tmp/models/model .ckpt. 
INFO:tensorflow:Loss for final step: 0.000836024. 


使 用 测试 数据 对 模型 进行 评估 ， 其 准确 率 为 94%， 如 以 下 代码 所 示 : 


test_input_fn = tf.estimator.inputs.numpy_input_fn( 
X={COMMENTS_FT: X test}, 
y=y_test, 
num_epochs=1, 
shuffle=False) 
preds = classifier.predict (input_fn=test_input_fn) 
y_predicted = np.array (list (p['pred class'] for p in preds)) 
y_predicted = y_predicted.reshape (np.array (y_test).shape) 












































acc = metrics.accuracy_scorel(ly_test, y_predicted) 
print ('Accuracy: {0:f}'.format (acc)) 


以 下 输出 显示 了 先前 代码 的 结 


INFO:tensorflow:Restoring parameters from /tmp/models/model.ckpt-200 
Accuracy: 0.905612 
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要 可 视 化 图 和 训练 过 程 , 需要 启动 TensorBoard, 且 logdir 值 指向 在 Runconfig 中 所 使 用 
的 相同 路 径 。 使 用 浏览 器 访问 localhost:6006 ( 默认 值 )， 查 看 图 及 绘图 结果 。 可 以 看 到 ， 损 失 随 
着 训练 步骤 而 稳定 减少 ， 如 图 5-1 所 示 。 


TensorBoard SCALARS 
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图 5-1 训练 损失 及 步 数 / 秒 
模型 图 的 可 视 化 结果 展示 了 输入 、 般 人 层 、RNN 单元 、 密 集 层 和 softmax 输出 ， 如 图 5-2 所 示 。 
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图 5-2 文本 分 类 模型 


通过 机 入 投影 还 可 以 看 出 ,模型 学 习 到 的 词 胖 入 被 明显 地 分 成 了 两 个 簇 。 图 5-3 显示 了 垃圾 
评论 相关 单词 和 真实 评论 相关 单词 的 示例 。 这 显示 了 模型 是 如 何 将 与 这 两 个 类 相关 联 的 词 向 量 压 
入 单独 的 簇 中 的 。 
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我 们 看 到 了 如 何 使 用 基于 RNN 的 深度 学 习 模型 进行 文本 分 类 。 如 先前 所 述 ， 我们 还 可 以 使 


图 5-3 经 PCA 后 的 可 视 化 词 向 量 


四 | 








用 CNN 进行 该 工作 ， 接 下 来 就 对 此 进行 探讨 。 


5.5 使 用 CNN 对 新 闻 主 题 分 类 


在 本 例 中 , 我 们 将 使 用 新 闻 聚 合 器 所 收集 的 新 闻 网 页 的 数据 集 。 数 据 集 中 有 四 个 类 别 ， 分 别 
属于 科技 新 闻 、 商 业 新 闻 、 娱 乐 新 闻 和 健康 新 闻 。 该 示例 的 完整 Jupyter Notebook 文件 可 在 本 书 








代码 库 中 找到 ( Chapter05/03_example.ipynb )。 
首先 看 看 数据 集中 的 数据 示例 : 


news_df = pd.read csv('data/newsCorpora.csv',delimiter='\t', 
names=['ID','TITLE', 'URL','PUBLISHER','CATEGORY', 'STORY', 'HOSTNAME', 'TIMEST AMP']) 


news_df = news_df.sample (frac=1.0) 


news_df.head(5) 


数据 集 则 表示 为 如 表 5-3 所 示 的 形式 。 


header=None, 





表 5-3 
ID TITLE CATEGORY 
225897 Fed’s Dudley sees relatively slow rate hike... b 
26839 L’ Wren Scott’s death officially ruled as suicide e 
32332 Idina Menzel Says She Benefited From John Tr... e 
188058 Weak earnings and the dark cloud of Ukraine co... b 
22176 Android Wear-Google’s latest PLAY t 
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此 处 ,我 们 只 对 标题 (TITLE ) 和 类 别 (CATEGORY ) 列 感 兴趣 。 类 别 列 被 设置 为 新 闻 所 属 
的 四 个 类 别 之 一 。 这 四 个 类 别 是 和 科技、 商业、 娱乐 和 健康 ,分 别 由 t、b、e 和 m 表 示 。 与 前 面 的 
示例 一 样 ， 我 们 将 标题 的 平均 大 小 作为 最 大 浆 值 来 固定 训练 实例 的 长 度 。 


TensorFlow 中 的 vocabulary_processor 将 每 个 标题 文本 预 处 理 为 单词 列表 , 列表 的 长 度 
固定 为 平均 标题 大 小 。 单 词 数 如 果 大 于 平均 标题 大 小 , 则 文本 将 被 截断 ; 如 果 小 于 平均 标题 大 小 ， 
则 用 零 填 充 。 这 可 以 通过 以 下 代码 实现 : 


lencoder = LabelEncoder() 
Voc_processor = 
tf.contrib.learn.preprocessing.VocabularyProcessor (average title size) 
XxX_ transform = voc processor.fit transform(news_df.TITLE) 
XxX_transform = np.array (list (xXx_transform)) 
y = lencoder.fit transform(news_df.CATEGORY .values) 
XxX _ train, XxX test, y_train, y_test = 
model_selection.train test_split(X transform, 
y, test_size=0.2, random state=42) 
n_ words = len(voc processor.vocabulary_) 
n_classes = len(lencoder.classes._ ) 


这 里 依旧 使 用 带 有 稀 玻 softmax 交叉 炉 的 AgamOpt imizer 来 训练 模型 。 对 于 该 模型 ， 我 们 
将 前 一 个 示例 中 的 GRUcel1 蔡 换 为 卷 积 层 ， 然 后 进行 最 大 池 化 ， 其 中 过 滤器 的 数量 设置 为 5、 
高 度 设置 为 3、 宽 度 设 置 为 朋 入 尺寸 。 按 照 步 幅 参 数 的 设置 ， 单 个 步 幅 执行 三 个 单词 的 滤波 器 卷 
内。 卷 积 层 的 数量 被 设置 为 一 层 ， 以 简化 模型 架构 并 加 快 训练 速度 。 你 也 可 以 尝试 增加 过 滤器 和 
卷 积 层 的 数量 。 需 要 注意 的 是 ， 我 们 还 将 组 入 输入 转 为 四 个 张 量 量 最 后 一 个 通道 的 维度 为 1。 以 
下 代码 显示 了 CNN 模型 的 构造 过 程 : 

filter_size=3 

num_ filters=5 

def cnn_ model_fn(features,1labels,mode): 

news_word_vectors = tf.contrib.layers.embed_ sequence (features [NEWS_FT], 


vocab_size=n_words, 
embeqd_dim=WORD_EMBEDDING_SIZE) 


























1 























ml 











news_word_ vectors = tf.expand_ dims (news_word_ vectors, -1) 
filter_shape = [filter_size, WORD EMBEDDING_ SIZE, 1, num_ filters] 
W = tf.Variable(tf.truncated normal (filter_ shape, stddev=0.1), 
name="W") 
b = tf.Variable(tf.constant (0.1, shape=[num filters]), name="b") 
conv1 = tf.nn.conv2d (news_word vectors, 
W， 


strides=[1, 1, 1, 1], 

padding="VALID", 

name="convl") 
relul = tf.nn.relu(tf.nn.bias_add(convl, b), name="relu") 
pooll tf.nn.max_pooll( 

relul, 

ksize=[1, average title size - 3 +1, 1, 1], 

Stridesel[li; 1 Lyre 11]; 

padding='VALID', 

name="pooll1") 
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activations1 = tf.contrib.layers.flatten (pool1) 

logits = 
tf.contrib.layers.fully_connected(activationsl,n classes,activation fn=None 
) 

return get_estimator_spec(input_logits=logits, out_lb=labels, 
train predict_ m=mode) 


我 们 仍 对 模型 进行 200 步 训练 并 使 用 测试 数据 展开 评估 ， 如 以 下 代码 所 示 : 


run_config = tf.contrib.learn.RunConftidg() 
run_config = 
run_config.replace (model dir='/tmp/models/',save_ summary_steps=10,1o0g_ step_ 
count_steps=10) 
classifier = 
tf.estimator.Estimator (model_ fn=cnn model_fn,config=run config) 
train_input_fn = tf.estimator.inputs.numpy_input_fnl( 
Xx={NEWS_FT: X_ train}, 
Vay ta 
batch size=len(X train), 
num_epochs=None, 
shuffle=True) 
classifier.train(input_fn=train input_fn, steps=100) 


以 下 是 测试 数据 输出 的 结果 : 


INFO:tensorflow:Restoring parameters from /tmp/models/model .ckpt-27 
Accuracy: 0.903094 
[[20990 534 108 1559] 

[ 410 29606 142 331] 

[ 493 1432 5741 1381] 

[ 1266 369 162 19960]] 


我 们 可 以 看 到 准确 率 和 混淆 矩阵: 准确 率 约 为 93%, 而 混淆 矩阵 的 对 角 线 列 则 显示 了 正确 预 
测 的 文档 类 型 。 我 们 可 以 在 TensorBoard 中 可 视 化 模型 图 和 学 习 指 标 图 ， 如 图 5-4 所 示 。 
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图 5-4 训练 损失 及 步 数 / 秒 


随 着 训练 步 数 的 增多 ， 训 练 损失 不 断 下 降 。 从 图 5-4 中 可 以 看 出 ， 当 增加 卷 积 层 和 过 滤器 的 
数量 时 ， 准 确 率 可 以 得 到 改善 。 
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5-5 显示 了 输入 、 骨 入 层 、 卷 积 层 、 最 大 池 化 、 密 集 层 和 softmax 输出 。 
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图 5-5 用 于 文本 分 类 的 CNN 模型 


我 们 已 经 看 到 了 如 何 将 相同 的 神经 网 络 元 架构 用 于 文本 分 类 。 这 两 个 示例 之 间 唯 一 的 区 别 在 
于 ,第 一 个 示例 使 用 RNN 作为 深度 表示 ， 而 第 二 个 则 使 用 了 CNN。 但 在 两 个 示例 中 ,输入 的 记 
巷 入 都 是 使 用 训练 数据 从 头 开 始 学 习 的 ， 而 在 训练 数据 较 少 的 情况 下 ， 我 们 可 以 转向 其 他 方法 ， 
如 迁移 学 习 。 在 下 一 个 示例 中 ， 我 们 将 使 用 预 学 习 好 的 词 虐 和 进行 文本 分 类 。 











5.6 ”使 用 GloVe 藤 入 进行 迁移 学 习 
全 局 向 量 (global vector，GloVe ) 使 用 大 型 文本 语料库 中 的 单词 全 局 共 现 统计 得 出 单词 的 密 
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集 向 量 表 示 形 式 。 这 是 一 种 无 监督 的 学 习 方 法 , 目的 在 于 使 学 习 到 的 向 量 的 点 积 等 于 共 现 概率 的 
对 数 。 机 入 空间 中 疝 量 之 差 将 被 转换 为 因为 比率 之 比 的 对 数 ， 即 比率 取 对 数 后 的 差 值 。 


本 例 将 使 用 在 Twitter 数据 上 预先 训练 好 的 GloVe 租 和 信 。 该 数据 包含 约 20 亿 条 推 文旦 词汇 量 
大 小 为 120 万 。 对 于 分 类 任务 ， 我 们 将 采用 用 户 对 于 Amazon 即时 短视 频 的 评论 或 评分 。 首 先 ， 
以 JSON 格式 加 载 评论 数据 ， 并 将 其 转换 为 pandas DataFrame 格式 ， 如 以 下 代码 所 示 : 


json_data = [] 
with gzip.open('dqata/reviews_Amazon_Instant Video 5.json.gz'， 'rb') as 
json_file: 
for json_str in json file: 
json_data.append(json.loads (json_str)) 
reviews_df = pd.DataFrame.from records (json data) 


对 于 分 类 任务 ,我 们 只 对 reviewText 栏 和 overall 栏 感 兴趣 ， 因 为 它们 分 别 代表 了 用 户 
的 评论 和 评分 。 使 用 如 下 代码 列 出 示例 数据 ， 并 对 评分 和 评论 文本 进行 查看 。 












































reviews_df[['overall','reviewText']].head(5) 
下 表 是 先前 代码 的 输出 结果 。 
overall reviewText 

9102 4.0 I enjoy this show because it shows old stuff t... 
22331 5.0 I really enjoy these programs. I am a pretty g... 
33811 3.0 Decent cast, but it seems a little formulaic... 
8127 5.0 My kids love this show. It’s one of my 3 year... 
17544 5.0 How they keep coming up with the shenanigans t... 


接着 使 用 如 下 代码 从 GloVe 向 入 文本 文件 中 载 入 词 向 量 : 


def builgd word vector matrix(vector_ file): 
np_arrays = [] 
labels_array = [] 
with codecs.open(vector_file, 'r', 'utf-8') as f: 
for i, line in enumerate(f): 
sr = line.split() 
if(lenl(sr)&lt;26): 
continue 
labels_array.append (sr[0]) 
np_arrays.append (np.array ([float(j) for j in sr[1:]])) 
return np.array (np_arrays), labels_array 


文件 中 的 每 一 行 包含 单词 及 其 相应 向 量 表示 形式 。 将 其 读 入 NumPy 数组 np_arrays， 并 将 
相应 的 单词 读 和 人 labels_arrav。 调 用 builgd_word_vector_matrix 时 ,将 返回 单词 词 元 和 
对 应 词 向 量 数组 ,我 们 依旧 使 用 TensorFlow 的 vocabulary_processor 将 评论 数据 转换 为 固定 长 
度 的 句子 , 且 该 长 度 等 于 所 有 评论 的 平均 大 小 ,将 DataFrame 评论 传递 给 vocabulary_processor 
来 实现 这 一 点 ， 如 以 下 代码 所 示 : 
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lencoder = LabelEncoder () 
Voc_processor = 
tf.contrib.learn.preprocessing.VocabularyProcessor (average review_ size) 
Voc_processor.fit (vocabulary) 
X_transform = voc processor.transform(reviews_df.reviewText) 
XxX_ transform = np.array (list (Xx_transform)) 
y = lencoder.fit_ transform(reviews_df.overall.values) 
xX train, XxX test, y_train, y_test = 
model_selection.train test_split (x transform, 

y, test_size=0.2, random state=42) 
n_ words = len(voc processor.vocabulary_) 
n_classes = lenl(lencoder.classes._) 


评估 器 (estimator ) 的 模型 函数 依旧 使 用 了 RNN, 但 我 们 为 输入 的 租 和 变量 worg_embeddings 
设置 了 Trainable = False 选项 ， 确 保 模型 在 训练 期 间 不 会 再 次 学 习 乱 人 。 请 注意 ，wora_- 
embeddings 变量 包含 Glove 舰 人 的 查找 表 。 以 下 代码 显示 了 用 于 创建 RNN 模型 的 函数 : 


def rnn model_fnl(features,1labels,mode): 
em plholder = tf.placeholder (tf.float32, [voc_size, WD_EMB_SIZE]) 
Wt = tf.Variable (em plholder,trainable=False, name='Wt') 
comments_word_ vec = tf.nn.embedding_ lookup (Wt, features [REVIEW_FT]) 
comments_ wd_ 1 = tf.unstack (comments_ word_ vec, axis=1) 
rnn_cell = tf.nn.rnn cell.GRUCell]l (WD_EMB_SIZE) 
_, Comments_encoding = tf.nn.static rnn(rnn cell, comments_wd_1, 
dtype=tf.float32) 
dense = tf.layers.dense(comments_encoding, units=512, 
activation=tf.nn.relu) 
dropout = tf.layers.dropout (inputs=dense, 
rate=0.4,training= (mode==tf.estimator.ModeKeys .TRAIN) ) 
logits = tf.layers.dense(inputs=dropout, units=n_ classes) 
return get_estimator_spec(input_logits=logits, out_lb=labels, 
train predict_ m=mode, 
embedding_placeholder=em plholder) 


正如 我 们 先前 所 做 的 那样 ， 可 以 在 TensorBoard 里 查看 模型 图 和 训练 过 程 。 可 以 观察 到 ， 当 
训练 步 数 增加 时 ， 学 习 率 (learning rate ) 稳定 减 小 ， 如 图 5-6 所 示 。 
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图 5-6 训练 损失 及 步 数 / 秒 
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图 5-7 显 示 了 包含 word_embedding 输入 、RNN 层 、 全 连接 (FC ) 层 和 最 终 softmax 输出 
的 网 络 。 
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图 5-7 使 用 Glove 艇 人 的 模型 


5.7 多 标签 分 类 


到 目前 为 止 ,我 们 已 经 看 到 了 需要 将 文本 分 类 为 某 一 类 或 者 标签 的 问题 ,在 文本 分 类 问题 中 ， 
可 能 要 为 同一 个 文档 赋予 多 个 类 别 。 例 如 在 Yelp 评论 数据 集中 ,评论 者 可 能 在 谈论 餐厅 的 不 同 
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方面 ,例如 食物 、 和 氛围 和 服务 质量 等 。 在 这 种 情况 下 ,我 们 需要 确定 评论 所 属 的 类 别 ， 以 便 对 整 
体 评价 有 所 了 解 。 现 在 ， 我 们 将 研究 用 来 解决 该 问题 的 一 些 现 有 方法 。 





5.7.1 二 元 关联 

用 于 标识 文档 工 个 标签 的 多 标签 分 类 可 以 转换 为 工 个 二 进 制 分 类 问题 。 在 该 方法 中 , 我 们 将 
文档 传递 到 工 个 二 进 制 分 类 器 中 ， 其 中 每 个 分 类 器 都 经 过 训练 以 识别 对 应 分 类 。 工 个 分 类 器 的 输 
出 将 被 合并 以 生成 文档 所 属 的 类 标签 向 量 。 即 使 如 决策 树 之 类 的 简单 模型 ， 也 可 以 使 用 SVM 来 
进行 二 进 制 分 类 。 

该 方法 尽管 最 为 简单 , 但 缺点 在 于 它 假定 各 个 类 别 彼此 独立 (但 情况 并 非 总 是 如 此 ), 例如 在 
Yelp 评论 示例 中 ，( 餐厅 的 ) 氛围 和 服务 质量 类 别 可 能 相互 关联 。 现 在 我 们 将 探讨 其 他 处 理 方法 。 











5.7.2 ”用 于 多 标签 分 类 的 深度 学 习 


在 “Large-scale Multi-label Text Classification - Revisiting Neural Networks” 一 文中 ，Nam 等 
人 通过 使 用 带 隐藏 层 的 次 层 多 层 感知 器 ( multi-layer perceptron，MLP ) 和 产生 对 应 标签 分 数 的 输 
出 单元 来 解决 此 问题 。 他 们 使 用 标签 预测 器 , 基于 秩 损失 函数 的 阔 值 将 标签 分 数 从 深层 网 络 转换 
为 二 分 类 。 这 种 方法 的 细节 可 以 在 该 论文 中 找到 。 


图 5-8 对 该 方法 进行 了 阐述 。 





该 阅 值 产生 的 结 第 : 


P=1, R=~, hf == 
3 2 











(a) 神经 网 络 (b) 国 值 决定 














图 5-8 ”多 标签 分 类 方法 
在 图 5-8 中 ， 输 出 由 九 个 可 能 的 标签 组 成 ， 而 且 我 们 在 这 些 标签 上 分 别 应 用 了 姜 值 。 选 择 产 

生 最 高 Fl 分 数 的 阔 值 ( 正中 间 的 那个 )。 蓝 色 "长 条 则 是 训练 示例 的 相关 标签 。 
有 许多 针对 多 类 别 问题 的 最 新 深度 学 习 文 本 分 类 方法 也 可 以 输出 针对 多 标签 前 个 所 属 类 
预测 〈 我 们 也 可 以 应 用 闽 值 )。 我 们 将 研究 其 中 一 些 可 用 于 多 标签 分 类 的 多 分 类 模型 。fastText 

















g 在 纸 质 版 图 书 中 为 深 灰 色 。 一 一 编者 注 
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是 一 种 最 近 流 行 的 深度 学 习 方法 。 正 如 A Joulin 等 人 在 论文 “Bag of Tricks for Efficient Text 
Classification” 中 所 探讨 的 那样 ，fastText 通过 平均 化 出 现在 文档 中 的 词 般 入 向 量 来 表示 文档 。 然 
后 该 平均 文档 向 量 将 被 传递 到 softmax 层 以 输出 所 属 类 概率 。 因此 ， 这 种 方法 不 考虑 单词 的 顺序 。 
在 论文 “Convolutional Neural Networks for Sentence Classification” 中 ，Kim 等 人 使 用 CNN 来 串 
联 的 文档 的 词 租 入 。 他 们 在 文档 上 使 用 多 个 过 滤 右 ， 其 输出 被 馈送 到 最 大 池 化 层 ， 随 后 经 过 一 个 
全 连接 层 ， 最 终 由 softmax 输出 对 应 于 工 个 标签 的 概率 。 这 也 是 我 们 在 示例 中 使 用 CNN 进行 文 
本 分 类 的 方法 。 在 论文 “Deep Learning for Extreme Multi-label Text Classification” 中 ，Liu 等 人 利 
用 XML-CNN 架构 进行 多 标签 分 类 。 特 别 要 指出 的 是 ， 之 前 所 述 的 方法 可 能 不 适用 于 大 量 标签 和 / 
或 标签 的 偏 竹 分 布 ， 而 XML-CNN 架构 则 试图 取 解 决 此 问题 。 


图 5-9 对 XML-CNN 架构 进行 了 阐述 。 






























































使 用 词 向 量 表示 文档 具有 多 个 过 滤器 宽度 动态 最 大 池 化 ee 带 有 sigmoid 型 输出 的 


和 特征 图 的 卷 积 层 全 连接 层 ， 可 提供 较 
大 的 标签 空间 和 二 进 
制 蚁 损失 














图 。5-9 


在 图 5-9 中 , 该 模型 使 用 了 具有 动态 最 大 池 化 的 CNN 和 用 于 较 大 标签 空间 的 全 连接 sigmoid 
型 输出 。 基 于 attention ( 注意 力 ) 的 网 络 结构 则 是 文本 分 类 中 的 另 一 种 最 新 技术 ， 与 迄今 为 止 我 
们 所 描述 的 所 有 方法 相 比 , 它 显 示 了 出 令 人 欢欣 鼓舞 的 前 景 。 下 面 ,我们 将 查看 一 篇 关于 该 主题 
的 新 论文 。 




















5.7.3 ”用 于 文档 分 类 的 attention 网 络 

在 论文 “Hierarchical Attention Networks for Document Classification” 中 ，Yang 等 人 使 用 一 种 
分 层 深度 学 习 架 构 对 文档 进行 分 类 。 他 们 的 灵感 来 源 于 文档 具有 固有 的 层次 结构 ,例如 单词 构成 
句子 、 句 子 构成 文档 。 此 外 , 在 捕获 回答 特定 查询 所 需 的 语义 和 含义 方面 ,文档 中 的 所 有 部 分 并 
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非 同样 重要 。 他 们 使 用 了 两 种 类 





型 的 attention ， 一 种 在 单词 级 别 ， 而 另 一 种 在 句子 级 别 。 除 出 








之 








外 ， 他 们 还 将 文本 表示 分 为 句子 级 别 和 文档 级 别 。 图 5-10 显示 了 该 网 络 的 不 同 组 件 ， 用 于 捕获 
单词 和 句子 级 别 的 深层 表示 以 及 相应 的 attention 机 制 。 
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attention 
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图 $-10 attention 网 络 组 件 


GitHub 中 的 项 目 和 ematvey/hierarchical-attention-networks 分 别提 供 了 本 文 所 介绍 模型 的 


Keras 实现 和 TensorFlow 实现 。 
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5.8 小 结 


本 章 探 讨 了 使 用 LSTM、GRU 和 基于 CNN 的 网 络 进 行文 本 分 类 的 不 同 技术 ， 曾 释 了 主题 建 
模 (文本 分 类 中 的 一 个 相关 问题 )， 并 介绍 了 一 个 使 用 gensim 进行 主题 建 模 的 简单 示例 。 我 们 看 
到 了 一 些 使 用 真实 数据 集 进行 情感 分 类 、 评论 评 分 预测 和 垃圾 评论 检测 的 解决 方案 。 本 章 概 述 了 
如 何 使 用 RNN 和 CNN 通过 深度 学 习 技术 解决 文本 分 类 问题 ,还 介绍 了 一 个 使 用 预 训练 词 租 入 的 
迁移 学 习 示例 。 最 后 , 我 们 讨论 了 可 用 于 复杂 文本 分 类 方案 的 最 新 技术 ,例如 极端 多 标签 分 类 和 
attention 网 络 。 


在 下 一 章 ， 我 们 将 学 习 用 于 搜索 和 相似 文档 去 重 的 深度 学 习 方法 。 























使 用 CNN 进行 搜索 和 去 重 








事实 证 明 ， 当 提供 大 量 数据 点 时 ， 深 度 神经 网 络 可 以 做 得 很 好 。 但 对 于 大 多 数 引 擎 来 说 ， 主 
要 问题 在 于 缺乏 用 于 构建 大 型 搜索 引擎 的 数据 。 搜 索 文 本 数据 的 传统 方法 涉及 领域 理解 和 关键 字 
映射 ,这 些 为 搜索 引擎 提供 了 包括 相关 主题 足够 信息 的 知识 图 谱 , 从 而 使 搜索 引擎 能 够 找到 答案 。 
通过 获取 主题 之 间 的 关系 ， 搜 索引 擎 还 能 够 拓展 到 新 的 主题 上 。 

本 章 将 探讨 如 何 使 用 机 器 学 习 构建 搜索 引擎 ,并 将 其 用 于 匹配 和 去 重 等 任务 。 为 了 解 深度 学 
习 是 如 何 改进 搜索 的 ， 我 们 将 使 用 传统 方法 〈 例 如 TF-IDF 和 潜在 语义 索引 ) 构建 基准 方法 ， 并 
随后 开发 一 个 CNN 以 学 习 识 别 重复 文本 。 我 们 将 比较 CNN 与 传统 方法 ,以 了 解 每 种 方法 的 利弊 。 

对 于 搜索 任务 , 我 们 重视 理解 句子 语义 的 能 力 , 因为 在 大 量 数据 中 搜索 文本 需要 对 文本 进行 
恰当 的 表示 。 我 们 将 解决 删除 重复 数据 的 问题 来 作为 分 类 需 的 扩展 。 




















6.1 数据 


为 了 构建 搜索 和 检索 系统 ， 我 们 将 使 用 相同 的 数据 进行 训练 和 测试 。 我 们 将 使 用 Quora 重 
复 问题 数据 来 构建 搜索 和 检索 方法 。Quora 重复 问题 对 要 处 理 的 任务 是 确定 两 对 问题 是 否 具有 相 
同 的 含义 。 该 数据 包含 成 对 的 问题 和 由 人 类 专家 标记 的 、 关 于 该 问题 是 否 重 复 的 真 值 标签 。 所 提 
供 的 真 值 数据 还 提 到 这 些 标签 是 主观 的 ,意味 着 并 非 所 有 人 类 专家 都 会 就 该 问题 达成 共识 。 因 此 ， 
由 于 文本 数据 固有 的 主观 性 ， 应 将 数据 视 为 有 启示 性 的 ， 而 非 100% 准 确 。 


















































数据 描述 


所 提供 的 数据 采用 ia 、aidal、qidq2 、dquestionl、duestion2 和 is_duplicate 的 格式 ， 
其 中 ia 字段 提供 训练 对 的 ID , qia 和 aiaqa2 提供 每 个 问题 的 ID , 而 question1 和 question2 
则 是 用 于 训练 的 完整 问题 文本 。is_dquplicate 是 布尔 值 、 也 是 目标 值 ， 当 文本 对 是 重复 的 ( 语 
义 上 相同 ) 时 ， 其 值 设 置 为 1， 和 否则 设置 为 0。 训练 数据 包含 大 约 404 000 个 问题 对 及 其 标签 。 
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6.2 ”模型 训练 
接 下 来 ， 我 们 训练 模型 以 匹配 这 些 问题 对 。 导 入 相关 库 的 代码 如 下 所 示 : 


import sys 

import os 

import pandas as pd 
import numpy as np 
import string 

import tensorflow as tf 


以 下 函数 将 pandas 文本 序列 作为 输入 并 将 该 序列 转换 为 列表 。 列 表 中 的 每 个 项 目 都 将 被 转 
换 为 小 写字 符 串 并 去 除 周围 的 空白 。 整 个 列表 最 终 被 转换 为 NumPy 数组 并 返回 : 
def read x (x): 


x = np.array ([list (str(line).lower().strip()) for line in x.tolist()]) 
return x 


以 下 函数 则 将 pandas 序列 作为 输入 ,转换 为 列表 ， 最 终 转 为 NumPy 数组 并 返回 : 


def read yl(y): 
return np.asarray (y.tolist()) 


以 下 函数 拆 分 数据 以 进行 训练 和 验证 。 验证 数据 有 助 于 了 解 根据 训练 数据 训练 的 模型 对 未 知 
数据 的 泛 化 能 力 。 通 过 对 数据 索引 进行 混 洗 ,可 以 随机 选择 要 验证 的 数据 。 该 函数 将 问题 对 、 问 
题 对 对 应 的 标签 以 及 拆 分 比 作 为 输入 : 

def Split. traln veal (xl 2 Vr TatLiOSO0L): 

indicies = np.arange (x1.shape[0]) 
np.random.shuffle(indicies) 

num train = int(xl.shape[0]*(1-ratio)) 
train indicies = indicies[:num train] 
val_indicies = indicies[num train:] 

此 处 将 训练 集 和 验证 集 的 比 设置 为 10%。 因 此 , 通过 对 数组 进行 切片 , 可 以 对 混 洗 后 的 索引 
分 别 进行 训练 和 验证 。 由 于 索引 已 经 被 重新 排序 ， 可 以 将 其 用 于 拆 分 训练 数据 。 输 入 数据 有 两 组 
问题 ， 即 x1 和 x2 ， 并 带 有 y 标签 以 指示 该 对 是 否 重复 : 

















tain. XL xl [train_ indicies, :] 
七 区 忆 主 这 二 区 2 其 [train. indiceies,;, 2] 
train y = yl[ltrain indicies] 


类 似 地 ， 验 证 数据 被 基于 10% 的 索引 划分 比率 切片 : 


xl[val_indicies, :|] 


val_xl1 
Val :Xx2 
val y = yl[lval_indicies] 


x2[val_indicies, :|] 


return train xl, train x2, train y, val_xl, val x2, val 
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训练 数据 和 验证 数据 都 是 从 混 洗 后 的 索引 选取 的 ， 数 据 也 据 此 进行 了 切 分 。 


3 注意 ， 训 练 和 验证 问题 对 都 应 从 索引 中 选取 。 


6.2.1 文本 编码 
以 下 函数 能 够 将 字符 串 列 表 转 化 为 向 量 。 该 函数 首先 通过 串联 英文 字符 得 到 字符 集合 , 接着 
将 这 些 字符 作为 键 生成 字典 ， 并 将 整数 作为 其 键 值 。 


def get_encoded x(train x1, train x2, test_xl1l, test_ x2): 
chars = string.ascii lowercase + '? ()=+-_~" <>,./\|[]{}!Q@#S%S 8&*:;' + 











该 示例 仅仅 是 英文 中 的 字符 集 , 我 们 也 可 以 纳入 其 他 语言 字符 , 以 使 该 方法 通用 于 不 同 的 语言 
0 注意 ， 该 字符 集 可 从 数据 集中 得 到 ， 从 而 包含 非 英文 字符 。 


下 面 将 形成 字符 集 与 整数 集 的 字符 映射 ， 以 字典 的 形式 供 我 们 调用 ， 如 以 下 代码 片段 所 示 : 

char_map = dict (zip(list(chars), range(len(chars)))) 

之 后 可 以 通过 遍历 所 有 问题 获得 句子 的 最 大 长 度 。 首 先生 成 包含 每 行 长 度 的 列表 , 并 从 其 中 
获得 所 需 的 最 大 值 : 

max_sent_len = max([len(line) for line in np.concatenate( (train_Xx1， 


train _ x2, test_ x1, test_ x2))]) 
print ('max sentence length: {}'.format (max_sent_len)) 
































我 们 需要 预 设 所 有 问题 的 最 大 长 度 以 将 向 量 量化 为 该 固定 大 小 。 每 当 问 题 的 长 度 小 于 预 设 大 
小 时 ， 只 需 在 文本 后 补 上 空格 : 
def quantize(line): 
line padding = line + [' '] * (max_sent_len - len(line)) 
encode = [char map[char] if char in char map.keys() else char_ mapl[' 


'] for char in line padding] 
return encode 


通过 调用 先前 的 suantize 函数 并 将 问题 对 转换 为 NumPy 数组 ， 可 以 实现 对 训练 数据 和 测 
试 数据 的 编码 。 每 个 问题 都 经 过 了 迭代 量化 ， 如 下 所 示 : 





np.array ([quantize(line) for line in train xl1]) 

train x2_encoded np.array ([quantize(line) for line in train x2]) 

test_xl1_encoded = np.array ([quantize(line) for line in test_ x1]) 

test_x2_encoded = np.array ([quantize(line) for line in test_ x2]) 

return train x1_ encoded, train x2_encoded, test_xl1_encodedqd, 
test_x2_encoded, max_sent_len, char_map 


train_ xl1_ encoded 
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接 下 来 进行 量化 : 在 填充 空格 后 , 使 用 字符 映射 表 对 每 个 字符 进行 拆 分 和 编码 ,然后 将 整数 
数组 转换 为 NumPy 数组 。 以 下 函数 结合 了 前 面 的 功能 来 实现 数据 的 预 处 理 : 读 取 .csv 格式 的 数 
据 以 进行 训练 和 测试 。 问题 1 和 问题 2 来 自 数 据 帧 的 不 同 列 ， 并 被 相应 地 拆 分 。 无 论 问 题 对 是 否 
重复 ,数据 都 是 二 进 制 的 。 


首先 ， 使 用 pandas 框架 载 和 人 包含 训练 数据 集 和 测试 数据 集 的 .csv 文件 : 


def pre_ process(): 
train data = pd.reagd csv('train.csv') 
test_data = pd.read csv('test.csv') 


然后 , 将 pandas DataFrame 传递 给 开头 所 定义 的 函数 , 以便 将 原始 文本 隐 式 地 转换 为 NumPy 
数组 ， 如 下 所 示 。pandas 问题 序列 是 被 传递 给 函数 之 前 的 序列 的 子 集 : 
tiaini: Xt read x(train_ data['question1l']) 


train x2 read x(train data[l'question2']) 
train y = read y(train data['is_ duplicate']) 


此 处 使 用 相同 的 函数 将 测试 数据 对 转换 为 NumPy 数组 : 


test_x1 
test_x2 


接 下 来 ,馈送 训练 数据 和 测试 数据 对 应 的 NumPy 数组 以 进行 编码 , 并 获取 编码 后 的 问题 对 、 
最 大 句子 长 度 和 字符 映射 表 : 
train_ xl, train x2, test_xl1l, test_x2, max_sent_len, char_ map = 
get_encoded x(train xl1, train x2, test x1, test_ x2) 


train Ly: traity 2 train yy Val xl; val. x2, val 生 
SD1it_train_ val (train xl, train x2, train y) 












































read x(test_data['gquestionl']) 
read x(test_data[l'gquestion2']) 





























return train xl, train x2, train y, val_xl, val_ x2, val y, test_xl, 
test_x2, max_sent_len, char_map 


在 训练 过 程 中 ， 也 可 以 调用 编码 函数 。 























6.2.2 建立 CNN 模 型 


接 下 来 ,我 们 构建 基于 字符 的 CNN 模型 。 我 们 从 创建 谋 入 查找 表 开 始 ， 其 大 小 为 字符 的 数 
量 (初始 值 为 50 )。 首 先 ， 从 字符 映射 表 获 取 字 符 集 长 度 : 


def character_CNN (tf_char _ map, char_map, char_embed dim=50): 
char_set_len = lenl(char_ map.keys()) 


对 于 各 个 卷 积 层 , 使 用 随机 值 对 其 权重 和 偏差 进行 初始 化 。 当 模型 建立 完成 后 , 卷 积 层 函 数 
将 会 被 调用 : 


def conv2d(x, W, b, strides=1): 
x = tf.nn.conv2d(x, W, strides=[1, strides, strides, 11], 
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padding="SAME") 
x = tf.nn.bias_addl( 


XB) 
return tf.nn.relu(x) 








全 


人 


各 个 卷 积 层 之 后 也 都 加 上 了 最 大 池 化 层 ， 


Ke 





def maxpool2d (x, 


定义 如 下 所 示 : 


return tf.nn.max pool (x, ksize=[1, k, k, 1], strides=[1, k, k, 
1], padding="SAME") 
然后 创建 输入 骨 入 并 使 用 随机 值 进行 初始 化 : 


with tf.name_ scope('embedding'): 
embdded_chars 


tf.nn.embedding_lookup (params=tf.Variable(tf.random normal([char_set_len, 


char_embed dim])), ids=tf_char_map, 
embedded_chars_expanded 








在 一 端 是 扁平 化 层 , 接 下 来 则 要 创建 四 层 卷 积 ， 
着 关注 较 长 时 间 维 度 上 的 文本 : 
prev_layer embedded_chars_expanded 


with tf.name_scope('Character_CNN'): 
for idx, 





name='embedding') 
tf.expand_ dims (embdded_chars, 


-1) 


并 逐步 增加 过 滤 右 及 步 长 。 更 大 的 步 长 


天 
[1 
/C 


味 


layer in-enumerateé([[3; 3 LT; 16]; [3; 3; 16; 32]; [3 3 
32;, 4] 3. 3 64 ~ L281 
with tf.name_scope('Conv{}'.format (idx)): 

w = tf.Variable(tf.truncated normal (layer, stddev=1e-1), 
name='weights') 

b = tf.Variable(tf.truncated normal([layer[-1]], 
stddev=1le-1), name='bias') 

Conv = conv2d(prev_layer, w, b) 

pool = maxpool2d(conv, k=2) 

prev_layer = pool 

prev_layer = tf.reshape (prev_layer, [-1, prev_layer.shapel[l1]._value 


* prev_layer.shapel[l2] .value * prev_layer.shapel[l3] 


return prev_layer 


._value]) 


接着 创建 一 个 函数 ， 为 每 个 问题 对 创建 和 连接 先前 描述 的 两 个 CNN 层 ， 并 通过 减 小 维度 来 


创建 三 个 全 连接 层 以 形成 最 终 的 激活 : 


def model (x1_pls, x2_pls, 
out_layerl1 
out_layer2 
preyv 


该 模型 类 似 于 逮 罗 网 络 “， 能 够 同时 训练 两 个 编 


char_map, keep_pr 
character_CNN (xl1_pls, char 
character_CNN (x2_pls, 
tf.concat ([out_layer!l, 


char. 


out_layer 




















ob): 
_map) 
_map) 
2 全 并 3 


码 锅 : 

















Q@ 膛 罗 网 络 〈siamese network ) 是 一 种 特殊 类 型 的 神经 网 络 ， 
中 数据 点 较 少 的 应 用 程序 ， 也 译 为 杰 生 网 络 。 一 一 译 者 注 




















r 








其 中 每 类 只 从 一 个 训练 例子 中 学 习 ， 主 要 
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with tf.name_ scope('fc'): 
oUtCAUt .Unite ss [T0244y, S12 .L287 29 
for idx, unit in enumerate(output _ units): 
ti i >, i 3 
prev = tf.layers.dense(prev, units=unit, 
activation=tf.nn.relu) 





prev tf.nn.dropout (prev, keep_prob) 

else: 
prev = tf.layers.dense(prev, units=unit, activation=None) 
prev = tf.nn.dropout (prev, keep_prob) 


return prev 


这 样 ， 通 过 让 几 个 卷 积 层 后 接 最 大 池 化 层 ， 模 型 就 建立 好 了 。 


























6.2.3 训练 


接 下 来 ， 我 们 创建 一 个 函数 来 训练 数据 。 首 先 为 问题 对 及 其 标签 创建 占 位 符 。 通 过 交叉 简 
softmax 将 先前 模型 的 输出 作为 损失 函数 ， 使 用 Adam 优化 器 实现 模型 权重 的 优化 : 


def train(train xl1l, train x2, train y, val _ x1, val x2, val y, max_sent_len, 
char_map, epochs=2, batch_ size=1024, num classes=2): 
with tf.name_ scope('Placeholders'): 
xl_pls = tf.placeholder (tf.int32, shape=[None, max_sent_len]) 
x2_pls = tf.placeholder (tf.int32, shape=[None, max_sent_len]) 
y_pls = tf.placeholder (tf.int64, [Nonel]) 
keep_prob = tf.placeholder (tf.float32) # dropout 


接着 ,创建 模型 并 进行 logit 计算 ,损失 则 通过 logit 和 标签 的 独 热 编 码 计算 得 到 。 我 们 使 用 
Adam 优化 器 对 损失 进行 优化 , 并 设置 学 习 率 为 0.001。 这 样 计算 出 了 正确 的 预测 和 准确 率 ， 如 下 
所 示 : 
































predict = model (xl1_pls, x2_pls, char_ map, keep_prob) 
with tf.name_ scope('loss'): 
mean_loss = tf.losses.softmax_cross_entropy (logits=predict, 
onehot_labels=tf.one_ hotl(y_pls, num classes)) 
with tf.name_ scope('optimizer'): 
optimizer = tf.train.AdamOptimizer (learning_ rate=0.001) 
train_step = optimizer.minimize (mean_ loss) 
with tf.name_ scope('accuracy'): 
correct_ prediction = tf.equal (tf.argmax(predict, 1), y_pls) 
accuracy = tf.reduce mean(tf.cast (correct prediction, tf.float32)) 
saver = tf.train.Saver() 


启动 会 话 以 初始 化 权重 。 对 于 每 个 周期 ， 都 将 编码 后 的 数据 混 洗 并 人 馈送 到 模型 中 。 验 证 数据 
时 也 遵循 相同 的 过 程 : 


with tf.Session() as sess: 
sess.run(tf.global_ variables_initializer()) 
train_ indicies = np.arange (train xl1.shape[0]1) 
variables = [mean_ loss, correct prediction, train step] 
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然后 迭代 周期 。 对 于 任意 周期 ， 都 混 洗 训练 数据 以 进行 更 为 稳健 的 训练 : 


iter_cnt = 0 
for e in range (epochs): 
np.random.shuffle(train indicies) 
Josses = [] 
correct = 0 


接 下 来 ， 对 批 数 据 进 行 迭 代 并 切片 以 用 于 训练 和 验证 模型 ， 如 以 下 代码 所 示 : 


for i in range(int (math.ceil (train xl.shape[0] / batch size))): 
start_idx = (i * patch size) %$ train xl.shape[0] 
idx = train indicies[start_idx:start_idx + batch sizel] 


随后 ， 生 成 feed 字典 并 馈送 到 会 话 中 ， 如 以 下 代码 所 示 : 


feed_ dict = {x1_p1s: train xl[idx, :], 
C2. DLS train, 2 [Ed 1; 
y_pls: train yl[lidx], 
keep_prob: 0.95} 

actual_batch_ size = train yl[lidx].shapel[0] 














loss, corr, _ = sess.run(variables, feed dict=feed dict) 


使 用 计算 后 的 损失 和 正确 的 重复 对 ， 可 以 得 到 准确 率 : 


Corr = np.array (corr) .astype (np.float32) 
losses.append(loss * actual_ batch size) 
Correct += np.sum(corr) 
eit L020 
print ("Minibatch {0}: with training loss = {1:.3g} and 
dCCUPFacYy Of {2.29"N 
.format (iter_cnt, loss, np.sum(corr) / 
actual_batch_size)) 
iter_cnt += 1 
total_correct = correct / train xl.shapel[l0] 
total_loss = np.sum(losses) / train xl1.shapel[0] 
print ("Epoch {2}, Overall loss = {0:.5g9} and accuracy of 
CES 
.format (total_loss, total_correct, e + 1)) 


每 过 5 轮 迭 代 ， 都 准备 验证 数据 并 计算 验证 准确 率 ， 如 下 所 示 : 


if (e + 1) %$ 5 == 
val_losses = [ 
Val_correct = 
for i in range(int (math.ceil(val xl.shape[0] / 
batch_size))): 
start_idx = (i * pbatch size) % val_xl1.shape[0] 


feed dict = {xl_pls: val xl[start_idx:start_idx + 
batch_size, :], 
Xx2_pls: val x2[start_idx:start_idx + 
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batch_ size, :], 
y_pls: val ylstart_ idx:start_idx + 
batch_ sizel], 
keep_prob: 1} 
print (y_pls) 
actual_batch size = val ylstart_ idx:start_idx + 
batch_sizel] .shape[0] 
loss, corr, _ = sess.run(variables， 
feed dict=feed_dict) 
corr = np.array (corr) .astype (np.float32) 
val_losses.append(loss * actual_ batch size) 
val_correct += np.sum(corr) 


计算 匹配 的 准确 率 : 


total_correct = val_correct / val_x1.shape[0] 
total_loss = np.sum(val_losses) / val_X1.shape[0] 
print ("Validation Epoch {2}, Overall loss = {0:.5g9} and 
accuracy of {1:.3g}" \ 
.format (total_loss, total_correct, e + 1)) 
if (e+1) %$ 10 == 
save_path = saver.save(sess, './model_{}.ckpt'.format(e)) 
print ("Model saved in path:{}".format (save_ path)) 


保存 模型 用 以 在 推理 时 进行 还 原 ， 这 将 在 下 一 节 进 行 阐述 。 


6.2.4 ”推理 


下 面 创 建 一 个 函数 以 对 测试 数据 进行 推理 。 该 模型 在 上 一 步 中 已 被 存储 为 检查 点 ， 
用 于 推理 。 以 下 代码 定义 了 输入 数据 的 占 位 符 ， 还 定义 了 一 个 saver 对 象 : 


def inference(test xl1, max_ sent_len, batch size=1024): 
with tf.name_ scope('Placeholders'): 
x_plsl1 = tf.placeholder (tf.int32, shape=[None, max_sent_len]) 
keep_prob = tf.placeholder (tf.float32) # dropout 





predict = model (x_pls1l, keep_prob) 
saver = tf.train.Saver() 
ckpt_path = tf.train.latest_ checkpoint('.') 


新 建 一 个 会 话 并 还 原 模 型 : 


with tf.Session() as sess: 
sess.run(tf.global_variables_ initializer()) 
saver.restore(sess, ckpt_path) 
print ("Model restored.") 


将 模型 载 人 会 话 ， 传 人 批 数据 并 储存 预测 结 


prediction = [] 
for i in range(int (math.ceil(test xl.shape[0] / batch size))): 
start_idx = (i * batch size) % test_x1.shape[0] 





在 这 里 可 
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prediction += sess.run([tf.argmax(predict, 1)], 
feed_dict={x_plsil: 

test_x[start_idx:start_idx + batch size, :], keep_prob:1}) [0] .tolist() 
print (prediction) 


调用 所 有 的 函数 以 预 处 理 数据 、 训 练 模型 并 在 测试 集 上 完成 推理 : 

















trailn xl, traln x2 train yy Val_ Xl) Val x2, Val yy teest _ x1l, test: xX2., 
max_sent_len, char map = pre_process() 
train(train xl, train x2, train y, val x1, val x1, val y, max_sent_len, 








char_map, 100, 1024) 
inference(test_ x]1, test_ x2, max_ sent_len) 


当 训 练 开 始 之 后 ， 你 就 可 以 看 到 训练 过 程 及 其 结果 ， 如 下 所 示 : 


Validation Epoch 25, Overall loss = 0.51399 and accuracy of 1 
Epoch 26, Overall loss = 0.19037 and accuracy of 0.889 

Epoch 27, Overall loss = 0.15886 and accuracy of 1 

Epoch 28, Overall loss = 0.15363 and accuracy of 1 

Epoch 29, Overall loss = 0.098042 and accuracy of 1 

Epoch 30, Overall loss = 0.10002 and accuracy of 1 

Tensor ("Placeholders/Placeholder 2:0", shape=(?,), dtype=int64) 














在 30 个 周期 后 ,模型 在 验证 集 上 已 可 以 提供 大 约 100% 的 准确 率 。 我 们 看 到 了 如 何 使 用 Quora 


问题 对 为 示例 训练 一 个 发 现 重复 的 模型 。 


6.3 ”小结 








在 本 章 中 ， 我 们 通过 训练 模型 来 搜索 重复 对 了 解 了 如 何 使 用 基于 字符 的 CNN 模型 。 字 符 型 

















CNN 使 我 们 可 以 灵活 地 训练 具有 未 知 字 符 的 模型 。 相 较 于 单词 级 徐 入 ， 它 更 为 通 月 








日 。 类 似 的 网 











络 可 以 用 于 搜索 、 匹 配 和 去 重 。 
在 下 一 章 ， 我 们 将 学 习 如 何 使 用 LSTM 训练 模型 进行 命名 实体 识别 。 





使 用 字符 级 LSTM 进行 
命名 实体 识别 











执行 重复 性 任务 时 ， 人 类 由 于 肌肉 记忆 和 注意 力 缺 失 , 很 容易 犯错 误 。 人 的 大 脑 倾向 于 自动 
操作 而 不 考虑 动作 和 反应 ， 此 时 注意 力 就 会 不 集中 , 这 通常 称 为 大 脑 疲 劳 。 因 此 ， 要 在 不 丢失 任 
何 信息 或 发 生 任何 错误 的 情况 下 回答 问题 ,就 迫切 需要 改进 传统 的 用 户 接口 , 从 根本 上 改变 与 机 
器 交互 的 方式 。 这 些 用 户 接口 对 客户 服务 、 搜 索 接 口 和 人 机 交互 的 大 量 应 用 都 有 影响 ,因此 也 是 
一 个 非常 重要 的 研究 领域 。 


为 了 开发 此 类 接口 , 基本 任务 之 一 是 理解 并 解释 用 户 输入 的 句子 。 此 类 接口 应 该 能 够 识别 名 
子 中 的 单词 及 其 传达 给 用 户 的 含义 。 这 样 的 过 程 称 为 命名 实体 识别 ( named entity recognition ， 
NER )， 目 标 是 在 文本 中 查找 (并且 分 类 ) 命名 实体 。 命 名 实体 识别 属于 更 为 广泛 的 信息 检索 领 
域 , 通常 以 实体 标识 、 实 体 分 块 和 实体 提取 之 类 的 名 称 为 人 熟知 。 


在 NER 中， 实体 是 预定 义 的 类 别 ， 例 如 人 员 名 称 、 组 织 名 称 、 位 置 名 称 、 时 间 ， 等 等 。NER 
允许 计算 机 程序 将 句子 “I will meet you at Burj Khalifa for a cup of coffee at 7:30 PM tomorrow” 理 解 为 
‘Twill meet you at (Burj Khalifa)iocation for a cup of (coffee)soog at (7:30 PM)rime (tomorrow)pae”。 在 本 例 中 ， 
该 算法 检测 并 分 类 出 了 一 个 双 词 元 的 位 置 、 一 个 单词 元 的 食物 以 及 一 个 时 间 表达 式 和 一 个 日 期 。 


NER 通常 被 认为 属于 序列 标记 问题 , 使 用 隐 马 尔 可 夫 模 型 (HMM )、 决 策 树 、 最 大 粹 (ME ) 
模型 、 支 持 向 量 机 ( SVM ) 和 条 件 随机 场 (CRF ) 等 方法 。 但 在 最 近 的 文献 中 ,深度 学 习 已 被 广 
泛 用 于 识别 命名 实体 。 深 度 学 习 借助 大 量 数据 来 构建 算法 , 展现 出 了 胜 过 传统 方法 且 同 时 也 具有 
很 好 的 学 习 泛 化 能 力 。 


必须 指出 ， 基 于 英语 的 先进 NER 系统 已 经 产生 了 接近 人 类 的 表现 。 例 如 最 佳 系统 的 上 度量 
得 分 为 93.39%， 而 人 类 标注 者 的 得 分 约 为 97%。 

























































































7.1 使 用 深度 学 习 实 现 NER 
深度 学 习 提供 了 一 个 利用 大 量 数 据 为 NER 提取 最 佳 特 征 的 好 机 会 。NER 的 深度 学 习 方 法 通 
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常 使 用 RNN， 因 为 该 问题 属于 序列 标记 任务 。RNN 具有 处 理 可 变 长 度 输 入 的 能 力 。 它 的 变 体 称 
为 LSTM， 具 有 长 期 记忆 ， 对 于 理解 给 定 句子 中 单词 的 重要 依存 关系 很 有 用 。 双 向 LSTM 则 是 
LSTM 的 变 体 , 不 仅 具 有 理解 长 期 依赖 性 的 能 力 , 还 具有 从 句子 两 端 理 解 句 中 单词 间 关 系 的 能 


本 章 将 使 用 LSTM 进行 深度 学 习 来 构建 NER 系统 。 但 在 尝试 之 前 ， 我 们 先 来 看 看 深度 学 习 
型 中 将 要 使 用 的 数据 ( 以 及 对 应 数据 的 格式 )。 


























注 


7.1.1 数据 


最 常用 来 测试 和 基准 化 NER 的 数据 是 CoNLL2003 数据 集 ， 这 是 一 个 与 语言 无 关 的 NER 共 
享 任务 。 该 数据 集 里 有 用 于 训练 、 开 发 和 测试 的 文件 以 及 一 个 包含 未 标注 数据 的 大 型 文件 。 开 发 
文件 用 于 调整 学 习 方法 的 参数 , 而 训练 数据 则 用 于 训练 模型 、 使 用 调整 后 的 参数 并 在 测试 数据 集 
上 进行 测试 。 


CoNLL 数据 在 开发 和 测试 之 间 做 了 划分 ， 以 避免 对 测试 数据 进行 系统 调整 ， 其 中 的 英文 数 
据 取 自 路 透 社 语料库 从 1996 年 8 月 至 1997 年 8 月 的 新 闻 报 道 。CoNLL 数据 集 的 示例 句子 及 其 附 
带 的 实体 注释 如 下 所 示 : 


Only RB B-NP O 

France NNP I-NP B-LOC 

and CC I-NP O 

Britain NNP I-NP B-LOC 

backed VBD B-VP O 

Fischler NNP B-NP B-PER 

J 

proposal NN I-NP O 
OO 



































CoNLL 数据 的 每 一 行 包含 四 个 字段 : 单词 、 单 词 的 词性 ( POS ) 标签 、 单 词 的 块 标签 以 及 单 
词 的 命名 实体 标签 ， 其 中 标签 o 被 赋 给 了 命名 实体 之 外 的 单词 。 


为 了 处 理 存在 二 元 词 元 的 实体 (例如 New York ), 一 种 标记 方案 被 用 来 区 分 不 同 的 实体 情况 。 
当 <entity> 类 型 的 两 个 实体 彼此 相 邻 时 ,第 二 个 实体 的 第 一 个 单词 被 标记 为 B- <entity>， 以 
表明 它 启动 了 另 一 个 实体 。CoNLL2003 任务 提供 的 实体 分 别 是 Loc、PER、ORG 和 MISC， 分 别 
是 位 置 、 人 员 、 组 织 和 其 他 实体 。 

另 一 个 通常 用 于 构建 NER 系统 的 数据 集 是 Groningen Meaning Bank (GMB)。 它 具有 许多 
对 构建 NER 系统 任务 有 用 的 标注 ， 但 是 本 章 仍 使 用 CoNLL2003 数据 来 进行 实验 和 评估 。 

用 于 现成 NER 系统 的 流行 开源 框架 有 斯 坦 福 大 学 的 NLTK 和 Explosion AI 的 spaCy。 尺 第 这 
两 个 框架 在 几 个 任务 上 都 有 优秀 的 表现 , 但 我 们 仍 对 开发 灵活 、 先 进 的 深度 学 习 模 型 来 实现 NER 















































7.1.2 ”模型 


如 前 所 述 ， 我 们 可 以 将 命名 实体 识别 问题 视 为 序列 问题 。 大 多 数 NLP 系统 遵循 的 通用 深度 
学 习 方 法 是 使 用 RNN。 但 在 决定 RNN 模型 的 架构 之 前 , 我 们 需要 考虑 如 何 提供 模型 输入 和 处 理 
模型 输出 。 


由 于 我 们 的 输入 数据 为 单词 形式 ， 每 个 单词 we R” 都 需要 一 个 密集 向 量 表示 ( 即 词 岩 入 )。 
常用 的 预 训练 词 能 入 方法 包括 Word2vec、Glove 和 fastText。 这 样 的 预 训练 词 向 量 为 每 个 单词 提 
供 了 非常 好 的 语义 表示 ,从 而 无 须 为 每 个 任务 去 单独 训练 它们 。 因 为 许多 实体 没有 预 训练 的 词 向 
量 , 所 以 我 们 可 以 提取 字符 级 向 量 表示 形 式 , 以 考虑 出 现 连 字符 或 以 大 写字 母 开头 的 单词 等 情况 。 
这 种 做 法 为 模型 提供 了 有 关 当 前 上 下 文 所 讨论 实体 的 有 价值 信息 。 


当 决 定 使 用 RNN 的 变 体 〈 例 如 LSTM ) 来 获取 上 下 文中 输入 的 语义 表示 时 ， 我 们 将 为 每 个 
单词 获取 一 个 向 量 表示 ， 以 便 对 实体 进行 预测 。 

词 腾 入 

正如 在 第 4 章 中 讨论 的 那样 , 我们 想 构 建 一 个 密集 的 向 量 来 捕获 单词 上 下 文 的 语义 。 但 在 此 
任务 中 ， 将 把 词 嵌入 构建 为 在 单词 级 别提 取 的 预 训 练 工 入 和 从 字符 级 别提 取 的 训练 内 入 的 串联 。 
因此 , 词 谋 入 ws R" 由 预 训练 的 单词 级 向 量 wyywwane 及 ”和 一 个 预 训练 的 字符 级 向 量 www s R” 
组 成 。 

尽管 可 以 将 字符 级 向 量 编码 为 独 热 编码 或 使 用 其 他 手工 特征 , 但 是 这 样 得 到 的 特征 可 能 不 容 


易 扩 展 到 其 他 数据 集 和 语言 。 一 种 可 靠 的 字符 级 编码 方法 是 直接 从 数据 中 学 习 。 本章 将 使 用 双向 
LSTM 来 学 习 该 角 入 ， 如 图 7-1 所 示 。 
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因此 ， 单词 w= [ci,c2,…, a 中 的 每 个 字符 ci 都 有 关联 向 量 cie 及 ”。 必 须 注意 ， 我 们 不 对 数 
据 执行 任何 预 处 理 (如 删除 标点 符号 或 将 单词 更 改 为 小 写 )， 因 为 此 类 字符 会 影响 给 定位 置 单词 
所 传达 的 含义 。 例 如 句子 “They had to get an Apple product to complete their tech eco-system” 中 的 
Apple 一 词 指 的 是 组 织 (ORG )， 而 句子 “They had to get an apple a day to keep the doctor away” 中 
的 apple 指 的 则 是 水 果 。 当 考虑 单词 的 大 写 用 法 时 ， 可 以 轻松 识别 单词 的 区 别 。 字 符 级 般 入 癌 量 
试图 学 习 结 构 和 单词 以 得 出 最 终 的 使 用 形式 。 换 句 话 说， 字符 级 向 量 学 习 的 是 对 应 单词 的 词法 。 


最 后 ， 我 们 将 字符 虞 入 www s R” 词 氏 入 wvewane R" 串联 起 来 ， 以 获得 单词 的 表示 形式 
WW [Wprerain, Wenar] E R” 9 其 中 d 一 di 书 dyo 现在 我 们 已 经 准备 好 了 输入 ， 下 面 继续 遍历 代码 以 构 
建 输入 和 模型 。 












































7.1.3 代码 详解 
本 节 将 详细 解析 TensorFlow 的 代码 以 构建 输入 。 以 下 各 小 节 将 遍历 代码 的 不 同 部 分 。 
1. 输入 


我 们 正在 考虑 动态 输入 ， 因 此 将 使 用 TensorFlow 的 占 位 符 。 因 为 关于 批 尺寸 和 每 批 单 词 数 ， 
我 们 都 有 明确 的 数据 形状 ， 所 以 需要 先 填充 数据 集中 的 句子 ,使 它们 具有 相同 的 长 度 。 因 此 , 我 
们 将 定义 两 个 占 位 符 ， 如 下 所 示 : 

# 定义 单词 索引 形状 的 输入 占 位 符 = ( 批 愉 寸 ， 填 充 身子 的 长 度 ) 


word_indices = tf.placeholder (tf.int32, shape=[None, Nonel]) 








# 序列 长 度 形状 的 占 位 符 = ( 批 尺寸 ) 

sequence_lengths = tf.placeholder (tf.int32, shape=[None]) 

序列 长 度 占 位 符 允 许 计算 图 利用 输入 数据 的 实际 长 度 , 因为 我 们 对 初始 输入 进行 了 填充 以 使 
其 具有 相 同 的 max_length。o 


2. 词 骨 入 


现在 我 们 已 经 定义 了 输入 占 位 符 , 接 下 来 将 定义 一 个 TensorFlow variable 来 保存 数据 中 词 
汇 的 预 训练 上 腐 入。 在 这 种 情况 下 , 我 们 将 采用 索引 数组 , 将 与 i 处 的 单词 索引 相对 应 的 租 入 作为 
pre_trained_embedding[i] 供 获取 。 因 为 我 们 想 从 髓 入 和 矩阵 中 查找 ， 所 以 将 预 训练 的 租 入 数 
组 加 载 到 TensorFlow 变量 中 ， 其 代码 定义 如 下 : 

# 使 用 预 训练 嵌入 答 阵 定义 查找 表 


lookup_word mat = tf.Variable(embedding matrix, dtype=tf.float, 
trainable=False) 








# 使 用 TensorFlow 内 置 池 数 定义 谋 入 查找 表 
pre_trained embedding = tf.nn.embedding_ lookup (lookup_word mat, 
word_indices) 
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在 以 上 代码 块 中 ， 我 们 使 用 trainable = False 来 定义 TensorFlow 变量 ， 因 为 不 希望 该 
算法 进一步 训练 角 入 。 该 代码 块 定 义 了 单词 级 别 的 向 量 表示 。 

我 们 将 以 类 似 的 方法 使 用 两 个 占 位 符 构建 字符 级 向 量 表示 ， 如 下 所 示 : 

# 定义 字符 索引 形状 的 输入 占 位 符 = ( 批 尺 寸 ， 和 句子 最 大 长 度 ， 单 词 最 大 长 度 ) 


char_indices = tf.placeholder (tf.int32, shape=[None, None, Nonel]) 








# 单词 长 度 形状 的 占 位 符 = ( 批 尺 寸 ， 和 句子 最 大 长 度 ) 

word_lengths = tf.placeholder (tf.int32, shape=[None, Nonel]) 

可 以 看 到 , 我 们 选择 根据 每 次 迭代 过 程 中 处 理 批 次 里 的 可 用 数据 来 动态 设置 句子 和 单词 的 长 
度 。 在 定义 了 如 何 使 用 字符 来 构建 词 通 入 后 ， 我 们 将 研究 如 何 训练 代入 。 


与 之 前 的 情况 不 同 ， 我 们 在 字符 级 别 没有 任何 预 训练 的 符 入 可 供 在 租 入 矩阵 中 查找 。 因 此 ， 
我 们 将 使 用 随机 向 量 初始 化 字符 藤 入 ， 如 下 所 示 : 
# 使 用 默认 初始 器 定义 变量 查找 表 


lookup_char_ mat = tf.get_ variable (name="character_embeddings", 
dtype=tf.float32, shape=[num characters, dim character]) 




















# 使 用 TensorFlow 内 置 函 数 定义 识 入 查找 表 


character_embedding = tf.nn.embedding_ lookup (lookup_char mat, char_indices) 


如 图 7-1 所 示 ， 我 们 将 定义 一 个 双向 LSTM 以 从 可 用 输入 的 各 批 数据 里 获取 字符 : 


# 为 前 向 RNN 定义 LSTM 以 接受 字符 
bi_dir_ cell_ fw = tf.contrib.rnn.LSTMCell (char_hidden dim, 
state_is_ tuple=True) 








# 为 反 向 RNN 定义 LSTM 以 接受 字符 
bi_dir cell bw = tf.contrib.rnn.LSTMCell (char_hidden_ dim, 
state_is_ tuple=True) 





# 定义 双向 LSTM 以 从 前 向 RNN 和 反 向 RNN 中 获取 输入 及 序列 长 度 

Cr Ou EW) Out BW 
tf.nn.bidirectional_ dynamic rnn(bi_ dir cell_fw, bi_ dir cell_bw, 
character_embedding, sequence_ length=word_ lengths, dtype=tf.float32) 


因为 我 们 只 需要 输出 向 量 , 所 以 不 存储 bidirectional_dynamic_rnn 函数 提供 的 其 余 返 
回 语 句 。 为 了 导出 输出 , 我 们 将 连接 所 产生 的 前 向 和 后 向 输出 ， 从 而 得 到 一 个 原始 字符 隐藏 维度 
大 小 两 倍 的 输出 维度 。 因 此 我 们 将 通过 重新 调整 所 连接 的 输出 来 获得 字符 和 单词 的 表示 形式 : 


# 连接 前 向 RNN 和 反 向 RNN 的 两 个 输出 向 量 ， 从 而 得 到 形状 为 ( 批 尺 寸 X 向 子 ，2 x char_hidden_dim) 的 向 量 
output_fw bw = tf.concat ([out_fw, out_bw], axis = -1) 








# 通过 改变 先前 步骤 中 输出 向 量 的 形状 得 到 字符 谈 入 ， 最 终 向 量 形 状 = ( 批 尺 寸 ， 向 子 长 度 ，2 x 
char hidden _ dim) 

char_vector = tf.reshape(output_fw_ bw, shape=[-1, 
tf.shape(character_embedding) [1], 2*char_hidden dim]) 
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# 通过 将 预 训练 词 谋 入 及 由 双向 LSTM 得 到 的 字符 级 嵌入 级 联 得 到 最 终 词 谋 入 
word_embedding = tf.concat([pre_ trained embedding, char_vector], axis = -1) 


7.1.4 不 同 预 训练 词 嵌 入 的 影响 


有 许多 预 训练 的 词 谍 人 可 以 为 我 们 所 用 。 实 际 上 , 它们 包括 单词 和 由 不 同 研 究 团队 制作 的 相 
应 n 维 词 向 量 。 著 名 的 预 训练 词 向 量 包 括 GloVe、Word2vec 和 fastText。 尺 管 前 面 这 些 词 家 入 对 
于 构建 本 章 所 讨论 的 NER 系统 都 是 有 用 的 , 但 此 处 还 是 使 用 预 训练 的 Word2vec 词 向 量 。 这些 预 
训练 词 租 入 模型 的 读 取 和 处理 方法 有 所 区 别 ， 如 图 7-2 所 示 。 
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图 7-2 TensorBoard 网 





该 TensorBoard 图 显示 了 单词 和 字符 是 如 何 被 用 作 双 向 LSTM 的 输入 的 。 
1. 神经 网 络 架 构 


现在 我 们 已 经 从 字符 - 词 租 入 连接 中 构建 了 词 向 量 , 下 面 将 在 词 租 入 序列 上 运行 双向 LST™M， 
并 使 用 双向 LSTM 的 隐藏 连接 状态 ( 向 前 和 向 后 ) 获得 马 和 人 语义 表示 ， 如 图 7-3 所 示 。 
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图 7-3 





使 用 TensorFlow 来 实现 这 一 点 很 简单 ， 并 且 非 常 类 似 于 我 们 之 前 实现 的 字符 级 能 人 学 习 
LSTM 的 方式 。 但 与 之 前 情况 不 同 的 是 ， 我 们 对 每 个 时 间 步 骤 的 隐藏 状态 感 兴趣 : 


bi_dir cell_fw = tf.contrib.rnn.LSTMCell (hidden state_ size) 





bi_dir cell _ cell bw = tf.contrib.rnn.LSTMCell (hidden_ state_ size) 





(out_fw, out_bw), = tf.nn.bidirectional_ dynamic rnn(bi dir cell_fw, 
bi_dir _ cell bw, word_ embedding, sequence_ length=sequence_ lengths, 
dtype=tf.float32) 








semantic representation = tf.concat([out_fw, out_bw], axis=-1) 


因此 ,语义 表示 h 使 用 预 训练 的 词 向 量 、 字 符 和 单词 上 下 文 来 捕 著 每 个 可 用 单词 w 的 含义 。 
有 了 这 样 的 向 量 , 我 们 可 以 使 用 密集 神经 网 络 来 获取 预测 向 量 , 且 向 量 中 的 每 个 元 素 对 应 于 我 们 
想 要 作为 实体 去 预测 的 标签 ， 如 图 7-4 所 示 。 
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图 7-4 语义 图 表示 


7-5 显示 了 双向 LSTM 的 输出 是 如 何 馈 和 的。 
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图 7-5 双向 LSTM 
2 解码 预测 
假设 我 们 想 实 现 五 分 类 任务 ， 此 时 将 计算 一 个 五 维 向 量 se 权 二 码 帮 可 以 将 该 向 量 解释 为 
属于 每 个 类 的 概率 。 这 意味 着 在 给 定单 词 w 的 情况 下 ，s 的 第 ;个 分 量 提供 了 第 :类 的 概率 或 分 数 。 
密集 向 量 可 以 在 TensorFlow 中 计算 ， 如 以 下 代码 所 示 : 
# 使 用 默认 初始 器 初始 化 权重 矩阵 


W = tf.get_variable("W", shape=[2 * hidden state_ size, ntags], 
dtype=tf.float32) 














# 使 用 零 初 始 器 初始 化 偏差 向 量 
b = tf.get_variable("b", shape=[ntags], dtype=tf.float32, 
initializer=tf.zeros_ initializer()) 


# 获取 时 间 步 数 


num time_steps = tf.shape(sSemantic_representation) [11] 





# 使 用 扁平 (用 reshape 得 到 ) 向 量 计算 预测 得 分 

prediction = tf.matmul (semantic representatio_ flatten, W) + b 

假设 我 们 可 以 计算 出 一 个 提供 给 定单 词 属于 第 i 类 的 得 分 的 密集 向 量 ， 那 就 可 以 使 用 两 种 方 
法 进行 预测 。 

第 一 种 方法 显而易见 ， 是 使 用 softmax 激活 将 分 数 标 准 化 为 向 量 pe 展 ”。 此 方法 使 用 非 线性 
激活 ， 其 中 向 量 的 元 素 计 算 公 式 如 下 : 








s[ 可 
Pli]= 二 有 5 


> es 
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第 二 种 方法 则 更 为 聪明 一 些 。 它 使 用 类 似 于 第 一 步 的 方式 获得 相 邻 标签 , 然后 用 其 来 标记 单 
词 。 例 如 ， 如 果 我 们 考虑 使 用 New Delhi 一 词 ，NER 系统 可 能 会 基于 Delhi 是 地 点 的 事实 ,将 其 
附近 的 New 一 词 归 为 某 个 地 点 的 开头 。 此 方法 也 称 为 线性 链条 件 随机 场 (CRF)， 它 定义 了 一 个 
全 局 分 数 ， 而 该 分 数 考虑 了 以 特定 标签 开头 或 结尾 的 成 本 。 

3. 训练 步骤 

在 前 面 的 两 小 节 中 ， 我 们 讨论 了 输入 、 网 络 架构 以 及 如 何 对 隐藏 状态 解码 以 预测 输出 向 量 。 
现在 ,我 们 将 定义 用 于 训练 开发 模型 的 对 象 函数 。 

在 本 例 中 ,采用 交叉 炳 损失 是 十 分 有 效 的。 我们 将 使 用 第 二 种 方法 ,使 用 CRF 解码 输出 状 
态 。 不 过 ， 要 实现 这 样 一 个 复杂 的 概念 ， 我 们 将 依靠 TensorFlow 提供 的 易于 上 手 的 函数 ， 如 以 
下 代码 所 示 : 


# 定义 标签 占 位 符 ,， 形状 = ( 批 尺 寸 ， 和 句子 ) 
labels = tf.placeholder (tf.int32, shape=[None, None], name="labels") 








Jog_likelihood, transition params = tf.contrib.crf.crf_log_ likelihood!( 
scores, labels, sequence_ lengths) 


随 着 TensorFlow 的 出 现 ，CREF 的 实现 变 得 非常 简单 。 我 们 终于 可 以 使 用 刚刚 计算 的 对 数 似 
然 值 来 计算 损失 了 ， 如 下 所 示 : 

# 对 对 数 似 然 值 取 反 以 获得 距离 度量 

loss = tf.reduce mean(-log_likelihood) 

为 获得 最 终 分 数 ， 一 个 经 典 方法 是 通过 实现 softmax 方法 来 计算 损失 值 。 然 而 ， 我 们 需要 
注意 填充 值 (padding ): 














loss_values = 
tf.nn.sparse_ softmax_cross_entropy_with logits (logits=scores, 
labels=labels) 








loss = tf.reduce mean (loss_values) 


最 后 , 使 用 我 们 刚刚 定义 的 损失 函数 来 完成 训练 。 在 本 例 中 , 我 们 选择 使 用 Aaamoptimizer 
(尽管 其 他 优化 器 也 是 可 以 的 ) 来 最 小 化 损失 值 : 


opt = tf.train.AdqamOptimizer(LIearning_rate) 


























training_op = opt.minimize(loss) 


使 用 CRF 方法 ， 可 以 获得 大 约 88% 的 Fl 值 ， 而 准确 率 约 为 92%, 但 这 种 方法 依赖 于 预 训练 
词 戏 入 。 因 此 我 们 将 训练 巡 一 个 网 络 ， 其 中 所 有 词 认 人 都 是 从 头 训练 的 。 图 7-6 显示 了 这 两 种 方 
法 的 训练 损失 。 
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Smoothed Value Step Time Relative 
7.525 26.00 Wed Mar 28, 14:37:58 11s 
3.806 26.00 Wed Mar28, 14:36:08 10s 


Name 
test_300_pretrain_False 7.525 
(OR 














训练 损失 图 


在 这 次 训练 中 , 我 们 让 模型 训练 了 100 个 周期 ,并 监控 其 训练 损失 。 如 果 在 一 定 周 期 内 验证 
准确 率 没 有 提高 , 我 们 将 检视 验证 集 并 退出 训练 。 当 我 们 使 用 预 训练 的 词 般 入 时 , 损失 大 大 下 降 。 
因为 性 能 不 再 提升 , 训练 在 第 35 个 周期 就 停止 了 。 在 不 使 用 预 训练 的 词 姐 入 的 情况 下 进行 训练 ， 
最 终 准 确 率 约 为 69%。 


先前 训练 步骤 所 使 用 的 词 姐 入 大 小 维度 为 300， 但 是 较 大 的 维度 提出 了 较 大 的 存储 要 求 ， 而 
当 我 们 进行 推理 时 就 需要 较 长 的 加 载 时 间 。 因此, 再 以 维度 100 重复 前 面 的 实验 , 如 图 7-7 所 示 。 





图 7-6 
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图 7-7 


训练 损失 图 
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在 减少 词 胖 入 维度 的 情况 下 , 词 的 表示 任务 变 得 具有 挑战 性 。 尽管 它 减少 了 训练 模型 的 大 小 
( 以 及 初始 的 预 训练 词 脱 入 文件 )， 但 会 导致 数据 丢失 。 


使 用 预 训练 的 词 艇 入 向 量 (维度 100 ) 进行 训练 可 显著 降低 训练 损失 ， 并 且 最 终 测试 准确 率 
约 为 74%。 与 维度 为 300 时 的 预 训练 词 艇 人 相 比 下 降 了 18%。 类 似 地 ， 对 未 经 预 训 练 的 词 伐 人 向 
量 进行 训练 会 产生 更 低 的 准确 率 ， 约 为 64%， 如 图 7-8 所 示 。 











loss 





loss 























Smoothed Value Step Time 
test_100_pretrain_False 7.792 
test_100_pretrain_True 5.868 


Relative 
7.792 34.00 Wed Mar 28, 14:30:10 13s 


5.868 34.00 Wed Mar 28,14:32:22 13s 
7.519 34.00 Wed Mar28, 14:38:01 14s 
3.696 34.00 Wed Mar 28,14:36:09 11s 














图 7-8 训练 损失 图 


当 我 们 比较 维度 分 别 为 300 和 100 的 模型 的 性 能 时 , 可 以 更 好 地 了 解 两 种 方法 对 模型 性 能 的 
影响 。 相 较 于 100 的 维度 ， 维 度 为 300 时 明显 能 够 提取 更 多 的 信息 。 同 样 ， 使 用 预 训练 词 艇 人 可 
大 大 减少 训练 时 间 ， 并 带 来 更 好 的 模型 性 能 ， 如 图 7-9 所 示 。 
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Name Smoothed Value Step Time 
© test100_pretrain_True 6.111 


Relative 
5.868 34.00 WedMar28,14:32:22 13s 
3.696 34.00 WedMar28,14:36:09 11s 








test_300_pretrain_True 3.701 








图 7-9 训练 损失 图 
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当 我 们 比较 最 佳 性 能 模型 在 不 同 维度 上 的 性 能 时 ,可 以 很 明显 地 看 到 , 词 租 入 维度 为 300 时 
所 训练 的 模型 性 能 要 好 得 多 。 在 第 34 个 周期 时 ， 该 模型 不 仅 具 有 较 低 的 损失 值 ， 且 其 训练 速度 
也 快 得 多 ， 如 图 7-9 所 示 。 

我 们 可 以 使 用 经 典 的 softmax 激活 (而 非 CRF ) 执行 另 一 项 评估 以 进行 最 终 评分 。 为 了 客观 
评估 使 用 CRF 的 优势 ， 我 们 将 使 用 具有 300 个 维度 的 预 训练 模型 ， 这 是 目前 效果 最 好 的 模型 ， 
如 图 7-10 所 示 。 
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loss 








Smoothed Value Step Time Rel 
0.5893 0.5860 19.00 Wed Mar 28, 16:58:38 5s 











test_300_pretrain_True 4.307 4.219 19.00 Wed Mar 28, 14:36:05 7s 





7-10 训练 损失 图 
7-10 比较 了 两 种 方法 的 训练 过 程 。 基 于 softmax 的 方法 可 实现 约 74% 的 准确 率 , 并 且 仅 训 
练 20 个 周期 即 可 完成 。 但 就 性 能 而 言 ,观察 训练 后 的 准确 率 得 分 可 以 看 出 ,基于 softmax 的 方法 
不 如 基于 CRF 的 模型 。 图 中 反映 的 较 低 损失 值 是 由 CRF 和 softmax 损失 指标 的 差异 造成 的 。 


























7.1.5 ”改进 空间 

尽管 本 章 讨论 的 框架 对 于 现 有 数据 非常 有 效 , 但 是 当 数 据 集 较 小 或 数据 不 平衡 时 , 情况 可 能 
并 非 如 此 。 
7.2 小 结 


本 章 实 现 了 一 个 字符 级 、 基 于 LSTM 的 神经 网 络 以 开发 一 种 检测 命名 实体 的 算法 , 展示 了 如 
何 通 过 TensorFlow 轻松 实现 复杂 的 方法 ， 并 研究 了 改善 模型 性 能 的 方法 。 


在 下 一 章 ,我 们 将 讨论 如 何 开发 用 于 文本 生成 的 深度 神经 网 络 。 























使 用 GRU 进行 文本 生成 和 
文本 摘要 














本 章 将 介绍 使 用 深度 学 习 技术 来 生成 文本 和 摘要 的 方法 。 文 本 生成 是 通过 使 用 输入 源 文本 ， 
根据 上 下 文 和 范围 来 自动 生成 文本 的 过 程 。 一 些 涉及 文本 生成 的 应 用 包括 自动 生成 天 气 报告 , 生 
成 医疗 报告 , 以 及 将 给 定 输入 文本 的 表示 形式 翻译 成 多 种 语言 。 文 本 摘要 是 一 种 与 之 相关 技 的 术 ， 
涉及 从 源 文本 生成 摘要 ， 其 示例 任务 包括 生成 新 闻 、 产 品评 论 和 业务 报告 摘要 。 


本 章 着 重 为 你 提供 使 用 RNN 进行 文本 生成 和 文本 摘要 的 方法 ， 涵 盖 以 下 主题 : 


口 使 用 RNN 进行 文本 生成 
口 使 用 RNN 进行 文本 摘要 
口 总 结 先进 的 文本 生成 和 文本 摘要 技术 


8.1 使 用 RNN 进行 文本 生成 


在 前 面 的 章节 中 , 我 们 使 用 了 LSTM 和 GRU 进行 文本 分 类 。 除 了 预测 任务 外 ,RNN 还 可 用 
于 创建 生成 模型 。 它 可 以 从 输入 文本 中 学 习 长 期 依赖 关系 ， 以 此 生成 全 新 的 序列 。 该 生成 模型 可 
以 是 基于 字符 或 基于 单词 的 。 在 下 一 节 ， 我 们 将 学 习 一 个 基于 单词 的 简单 文本 生成 模型 。 




































































使 用 GRU 生 成 Linux 内 核 代 码 


现在 , 我 们 将 看 一 个 简单 有 趣 的 示例 : 使 用 GRU ( RNN 网 络 的 变种 ) 生成 Linux 内 核 代 码 。 
该 示例 的 完整 Jupyter Notebook 可 在 本 书 代码 库 中 的 文件 夹 Chapter08 下 找到 。 对 于 训练 数据 ， 
我 们 将 首先 从 Linux 源 代码 中 提取 内 核 代 码 。 你 可 以 从 内 核 档 案 ( The Linux Kernel Archives ) 里 
下 载 其 最 新 版 本 (或 更 早 版 本 )。 


解压 缩 tar 文 件 , 仅 使 用 源 代码 中 kernel 目录 下 的 核心 内 核 。 在 内 核 树 根 目录 执行 以 下 命令 ， 
以 从 所 有 *.c 文 件 中 提取 代码 : 
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cd kernel 
find . -name "*.c" -exec cat &gt;&gt; /tmp/kernel.txt {} \; 


这 将 连接 核心 kermel 目录 下 的 所 有 *.c 文件 并 将 其 写 入 /tmp 下 的 kernel.txt 文 件 中 。 当 然 ， 你 


也 可 以 使 用 /tmp 目录 以 外 的 任何 目录 。 首 先 ， 从 原始 内 核 代码 文件 中 准备 训练 数据 : 


with codecs.open('/tmp/kernel.txt', 'r', encoding='utf-8', errors='ignore') 
as kernel_ file: 
raw_text = kernel_file.read!() 





kernel_ words = re.split('(\-\&gt;)|([\- 
\&gt;+\=\&lt;\/\E\I\(\)\:\*])',raw text) 

kernel words = [w for w in kernel words if w is not None] 
kernel_words = kernel_ words[0:300000] 

kernel_ words = set (kernel_words) 

kword_to_int = dict((word, i) for i, word in enumerate(kernel words)) 
int_to_ kword = dict((i, word) for i, word in enumerate (kernel words)) 
vocab_size = len(kword_ to_int) 

kword_ to_int['&lt;UNK&gt;'] = vocab_ size 

int_to_kword[vocab_size] = '&lt;UNK&gt;' 

vocab_size += 1 

XxX_train = [kword to_int[word] for word in kernel words] 


y_train. = X train[1l:] 
y_train.append (kword to_int['&lt;UNK&gt;']) 
XxX_ train = np.asarray (X_train) 

y_train = np.asarray (y_train) 

XxX_train = np.expand_ dims (X_train,axis=1) 
y_train = np.expand dims(y_train,axis=1) 
print (Xx_train.shape, y_train.shape) 


在 代码 中 ， 正 则 表达 式 re.split('(\-\&gt;)|([\-\&gt;+\=\&1lt;\/A\&\|\ (WU) \ 


| 


raw_text) 拆 分 了 包含 某 些 C 语言 运算 符 的 语句 ， 例 如 指针 、 算 术 和 她 辑 运 算 符 。 尽 管 在 使 用 





字符 级 文本 生成 器 时 这 并 非 必 需 , 但 由 于 要 生成 单词 级 别 的 文本 , 我们 在 这 里 还 是 要 使 


用 它 。 我 


们 还 将 创建 一 个 字典 ， 分 别 在 变量 kworg_to_int 和 int_to_kword 中 将 单词 映射 到 整数 ID 


(反之 亦 然 )。NumPy 变量 x_train 和 y_train 分 别 保存 训练 数据 和 标签 。 在 Xx_trai 





n 中 ,我 


们 有 一 个 从 kworg_to_int 提取 的 单词 ID 列表 , 而 y_train 则 包含 x_train 中 每 个 单词 的 后 
续 单词 。 使 用 numpy .expand_dims 函数 将 这 些 NumPy 数组 重 构 为 单词 ID 的 一 维 向 量 。 





与 之 前 章节 中 一 样 ， 我 们 将 使 用 TensorFlow estimator API 进行 模型 训练 和 验证 。 


(1) 先 来 看 看 model 函数 的 代码 : 


def rnn model_fn(features, labels, mode): 

embedding = tf.Variable(tf.truncated normal([v_size, 
EMBED_DIMENSION], 
stddev=1.0/np.sqart (EMBED_DIMENSION) ) ， 

name="word_embeddings") 

word_emb = tf.nn.embedding_lookup (embedding, features['word']) 

rnn_cell = tf.nn.rnn cell.GRUCell]l (HIDDEN_ SIZE) 

outputs, _ = tf.nn.dynamic rnn(rnn cell, word_emb, 
dtype=tf.float32) 
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outputs = tf.reshape(outputs, [-1, HIDDEN_SIZE]) 
flayer_op = tf.layers.dense(outputs, v_size, name="linear") 
return estimator_spec_for_ generation(flayer_op, labels, mode) 


我 们 使 用 了 一 个 简单 网 络 ， 在 输入 代入 层 后 接 上 一 个 GRUcel1 和 一 个 密集 层 。 























请 注意 ，EMBED_DIMENSION 和 HIDDEN_SIZE 分 别 被 定义 为 50 和 256。 你 也 
可 以 使 用 不 同 的 值 来 尝试 生成 的 输出 。 


(2) 然后 将 密集 层 的 输出 馈送 到 评估 咒 特 定 函 数 所 定义 的 优化 器 里 ， 下 面 将 进行 探讨 : 


def estimator_spec_for generation(flayer_op, lbls, md): 
preds_cls = tf.argmax(flayer_op, 1) 
if md == tf.estimator.ModeKeys .PREDICT : 
prev_op = tf.reshape (flayer_op, [-1, 1, v_size])[:, -1, :] 
preds_op = tf.nn.softmax(prev_op) 
return tf.estimator.EstimatorSpec!l 
mode=md, 
predictions={ 
'preds_probs': preds_op 
小 
trng_loss = tf.losses.sparse_softmax_cross_entropy (labels=lbls, 
logits=flayer_op) 
if md == tf.estimator.ModeKeys .TRAIN : 
optimizer = tf.train.AdamOptimizer (learning rate=0.01) 
trng_op = optimizer.minimize(trng_loss, 
global_step=tf.train.get_global_step()) 
return tf.estimator.EstimatorSpec (md, loss=trng_loss, 
train_op=trng_op) 
ev_met_ ops = {'accy': tf.metrics.accuracy (labels=lbls, 
predictions=preds_cls)} 
return tf.estimator.EstimatorSpec (md, loss=trng_loss, 
train_op=trng_op) 





在 训练 期 间 ， 我 们 使 用 AdamOpt imizer 以 最 大 程度 减少 sparse_softmax_cross_entropy 
的 损失 ， 并 使 用 标签 指定 序列 中 的 下 一 个 单词 。 在 预测 期 间 ， 将 softmax 输出 作为 下 一 个 单词 的 
概率 。 此 softmax 输出 表示 由 词汇 表 里 所 有 长 度 为 v_size 的 单词 所 组 成 的 列表 中 下 一 个 单词 的 
概率 分 布 。 

(3) 接着 创建 用 于 训练 的 estimator， 并 设置 训练 配置 : 

run_config = tf.contrib.learn.RunConfig() 


run_config = run_ config.replace (model dir='/tmp/models/', 
SavVe_summary_steps=10,1og_stepb_count_steps=10) 








Generator = 
tf.estimator.Estimator (model_ fn=rnn model_fn,config=run_ _ config) 


我 们 配置 了 步骤 摘要 日 志 ， 因 此 它 每 隔 10 步 训练 就 进行 一 次 计数 。 然 后 ， 我 们 使 用 mogel 
函数 和 配置 创建 了 estimator。 








8.1 使 用 RNN 进行 文本 生成 109 





(4) 现在 训练 模型 : 


train_input_fn = tf.estimator.inputs.numpy_input_fnl( 
X= "WOLG :XLtrain}:., 
y=y_train, 
batch_size=1024, 
num_epochs=None, 
shuffle=True) 
generator.train(input_ fn=train input_fn, steps=300) 


(5) 创建 训练 输入 函数 train_input_fn， 使 用 输入 训练 数据 x_train 和 y_train。 我们 
将 批 尺寸 设置 为 1024， 并 训练 模型 达 300 步 。 执 行 该 模型 后 ， 将 在 输出 中 达到 以 下 损失 : 


INFO:tensorflow:global_step/sec: 0.598131 
INFO:tensorflow:Saving checkpoints for 300 into 
/tmp/models/model .ckpt. 

INFO:tensorflow:Loss for final step: 0.0061470587. 


(6) 最 后 ,使 用 经 过 训练 的 模型 来 生成 文本 ,一 次 生成 一 个 单词 ,为 此 ,我 们 将 使 用 generator 
来 预测 给 定 初始 单词 的 下 一 个 单词 。 预测 的 单词 将 被 用 作 输 入 以 预测 后 续 单 词 , 依 此 类 推 。 我 们 
将 所 有 这 些 预测 单词 连接 为 最 终生 成 的 文本 : 


maxlen = 40 
next x = X train[0:60] 
text = "".join([int_ to_ kword[word] for word in next x.flatten()]) 
for i in range (maxlen): 
test_input_fn = tf.estimator.inputs.numpy_input_fn( 
x={'word': next_x}, 
num_epochs=1, 
shuffle=False) 
predictions = generator.predict (input_fn=test_input_fn) 
predictions = list(predictions) 
word = int_to_ kword[Inp.argmax (predictions[-1]['preds_probs'])] 
text = text + word 
next_x = np.concatenate( (next_x, [[kword_ to_int [word]]]) 
next_x = next_x[1:] 


我 们 应 该 选择 随机 单词 序列 作为 初始 文本 。 这 里 选择 了 前 60 个 单词 ， 你 当然 也 可 以 从 原始 
内 核 代码 中 选择 其 他 任何 连续 的 单词 列表 。 我 们 将 其 存储 在 next_x 变量 中 以 跟踪 序列 中 的 下 一 
个 单词 。 在 数据 准备 期 间 所 创建 的 int_to_kword 词典 将 预测 的 ID 转换 为 单词 并 附加 到 text 
输出 变量 之 后 。 请 注意 ， 我 们 在 代码 中 将 循环 数 maxlen 设置 为 40。 你 可 以 对 其 进行 调整 ， 以 
尝试 增加 或 减少 生成 文本 中 的 单词 数 。 


现在 可 以 看 看 最 终生 成 的 输出 : 


static int blk trace_remove queue Initialize POSIX timer handling for a 
thread group. 
PAGE_SHIFT; 
if !rb_ threads[cpuls, const struct pci dev ;} 
check_ mm the filter_ hash does not exist or is empty, 
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return NULL; 


memsetkexec_image; 
struct kimage ; 


} 


power_attr_rostruct hist_field module adqd modinfo attrs Fake ip data; 
struct page 
{ 
return arg ? GFP_ATOMIC PM_SUSPEND_ON 
goto fail_free buffers; 


et Sec; 


} 


static struct ftrace_ops trace ops __ initdata into them directly. 
!is_sampling_eventholders_dir, mod MIN_NICE can be offsets in the trace 
data. 
to the buffer after this will fail and return NULL. 
ring_buffer_ record enable cpu { 
arealpos] ; 





#ifdef CONFIG_SUSPEND 
if hist_fielgd ul6; 
break; 
case 1 representing a file path of format and ;，; 


#endif ; 
goto out; 


} 


ftrace_graph return Pipe buffer operations for a buffer. val; 
arch_spin unlock If we fail, we do not register this tracer. 
return ret; 


} 


尽管 输出 与 内 核 代 码 非常 相似 , 但 其 实际 意义 并 不 大 。 请 注意 , 每 次 运行 的 输出 可 能 会 有 所 
不 同 ， 并 且 也 会 与 本 书 代 码 库 的 Notebook 中 有 所 区 别 。 


看 起 来 该 模型 已 经 学 习 了 一 些 经 典 的 Linux 内 核 习惯 用 法 ， 例 如 对 goto 的 使 用 等 。 使 用 更 
深层 的 网 络 和 双向 LSTM 等 可 以 通过 字符 级 模型 生成 更 实际 的 内 核 代 码 。 你 可 以 尝试 使 用 这 种 方 
法 获得 更 好 的 结果 。 


现在 ， 我 们 将 在 TensorBoard 中 查看 损失 函数 和 模型 图 。 首 先 看 看 模型 图 ， 如 图 8-1 所 示 。 
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图 8-1 ”TensorBoard 中 的 损失 函数 及 模型 
该 图 显示 了 词 租 入 的 输入 ， 其 后 是 RNN 单元 和 密集 层 。 稀 踊 的 softmax 层 提供 输入 词汇 表 
中 单词 的 最 终 输 出 概率 。 梯 度 将 被 输入 到 损失 函数 中 ，Adqamoptimizet 则 尝试 最 小 化 该 损失 也 


数 。 现 在 我 们 将 研究 损失 函数 在 训练 步骤 中 的 变化 ， 如 图 8-2 所 示 。 
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图 8-2 训练 中 损失 函数 变化 曲线 
可 以 看 到 ， 损 失 从 11 开始 ， 慢 慢 减少 到 0.1。 


尽管 本 例 本 身 并 没有 实际 用 处 , 但 其 目的 是 展示 这 种 可 用 于 学 习 输入 文本 的 生成 模型 的 基本 
架构 和 本 质 。 因 此 , 创建 此 类 序列 模型 可 以 帮助 我 们 了 解 给 定 领域 的 文本 结构 。 我 们 在 示例 中 使 
用 的 领域 是 操作 系统 代码 ， 而 你 可 以 通过 其 他 文章 和 更 深入 的 模型 展开 进一步 探索 。 


8.2 文本 摘要 


文本 摘要 是 将 输入 文档 转换 为 简短 摘要 的 过 程 ， 能 帮助 我 们 在 短 时间 内 理解 文档 的 主要 内 
容 。 从 根本 上 讲 ， 有 两 种 类 型 的 摘要 : 一 种 是 提取 式 摘 要 ， 另 一 种 是 抽象 式 摘要 。 我 们 将 简要 介 


绍 这 些 摘要 类 型 。 














8.2.1 提取 式 摘要 
在 提取 式 摘要 中 ,文档 中 的 重要 短语 或 关键 字 会 被 提取 并 连接 起 来 以 获得 简短 的 摘要 。 
这 种 摘要 的 主要 优点 在 于 简单 、 稳 健 ， 因 为 所 提取 的 文本 直接 来 自 文档 。 但 该 方法 的 缺点 是 


我 们 可 能 无 法 获得 新 的 措辞 从 而 使 摘要 更 为 清晰 。 接 下 来 ， 我 们 将 简要 介绍 使 用 gensim 的 提取 
式 摘要 。 


使 用 gensim 进行 摘要 


gensim 的 摘要 算法 是 基于 Rada Mihalcea 等 人 所 创 TextRank 算法 的 改进 版 本 。TextRank 是 
一 种 基于 图 的 算法 , 使 用 文档 中 的 关键 字 作 为 项 点 , 而 关键 字 之 间 边缘 的 权重 是 根据 其 在 文本 中 
的 共 现 来 确定 的 。TextRank 与 PageRank 类 似 ， 能 用 于 确定 关键 字 的 重要 性 。 最 后 ， 它 通过 对 包 
含 高 排名 关键 字 的 重要 句子 进行 排名 来 提取 摘要 。 根据 该 描述 可 知 ,，TextRank 很 明显 是 提取 摘要 
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器 的 一 个 示例 。 我 们 将 查看 一 个 使 用 gensim 摘要 生成 器 的 简单 示例 ， 并 使 用 nltk 产品 评论 语 料 
库 作 为 测试 数据 : 


from nltk.corpus import product_ reviews_1 
from gensim.summarization import summarizer 


我 们 也 导入 了 gensim 摘要 器 ， 之 后 将 使 用 它 来 生成 产品 评论 摘要 : 


product_review_raw = 
product_reviews_1.raw('Apex_ AD2600_Progressive_scan DVD player.txt') 








product_summary = summarizer.summarize(product_review_raw,word_ count=100) 
print ("Raw Text Length: ", len(product review raw.split())) 

print ("Summary Length: ", lenl(product_summary.split())) 

print ("Summary: ", product_summary) 


我 们 选择 了 nltk 语料库 中 的 一 种 产品 (DVD 播放 器 ), 并 通过 summary 函数 的 word_count 
参数 将 摘要 限制 为 100 个 单词 。 我 们 将 打印 原始 文本 和 摘要 文本 的 单词 长 度 , 以 查看 两 者 之 间 的 





Raw Text Length: 13014 

Summary Length: 88 

Summary: player[+2]##i bought this apex 2600 dvd player for myself at 
christmas because it got good reviews as a good value for the money on a 
variety of different sites . remote[-2]##we 've purchased 3 universal 
remotes so far-all claiming to work " apex " dvd players and none worked . 
##after having bought and been disappointed in another brand of dvd player 
, i purchased the apex ad2600 from amazon and first of all i should say it 
was delivered much more quickly than i had expected . 


输出 显示 ， 摘 要 文本 大 约 有 88 个 单词 ， 而 原始 产品 评论 有 13 014 个 单词 。 我 们 还 可 以 查看 Si 
摘要 器 提取 的 关键 字 : 


from gensim.summarization import keywords 
keywords (product_review_ raw) .split("\n")[0:20] 


keyword 模块 将 提取 文档 中 的 主要 关键 字 ， 其 中 前 20 个 关键 字 如 下 所 示 : 


['players', 
'dvd player', 
'dvds', 
'play', 
'playing', 
'plays', 
'apex', 
'picture', 
'pictures', 
'pictured', 
'remotes', 
'work', 
'works', 
'working', 
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'worked', 

'customer', 
'customers', 

'disks types played', 
'problems', 
'problem'] 


该 输出 还 显示 出 了 某 些 关键 字 属 于 同一 单词 的 不 同时 态 。 
接 下 来 ， 我 们 将 使 用 次 度 学 习 来 研究 抽象 式 摘要 噩 。 











8.2.2 ”抽象 式 摘要 


抽象 式 摘要 生成 的 输出 摘要 包含 不 在 原始 文本 中 的 单词 或 短语 , 同时 保留 输入 文档 的 原始 意 
图 。 这 种 摘要 方法 可 以 产生 全 新 的 短语 ， 从 而 得 出 更 为 自然 的 摘要 。 我 们 将 首先 看 一 下 使 用 深度 
学 习 方 法 的 抽象 文本 摘要 。 在 文本 摘要 中 , 输入 和 输出 都 是 文本 序列 。 实 践 中 常用 的 深度 学 习 模 
型 是 序列 到 序列 ( Seq2Seq ) 模型 。 接 下 来 ， 我 们 将 简要 描述 这 种 文本 摘要 方法 。 

1. 编码 器 -解码 器 架构 

顾名思义 ， 编 码 器 -解码 器 架构 由 一 个 编码 器 和 一 个 解码 器 组 件 组 成 ,图 8-3 对 此 进行 了 说 明 。 
编码 器 的 功能 是 获取 输入 文本 序列 并 将 其 转换 为 密集 向 量 表示 ， 也 称 为 thought vector 或 上 下 文 


向 量 ( context vector )。 本 质 上 ，thought vector 是 一 种 可 捕获 整个 输入 文本 的 上 下 文 含 义 的 内 部 
表示 形式 。 解 码 器 采用 完整 原始 文本 的 密集 问 量 表示 ， 并 生成 输出 摘要 ， 一 次 只 生成 一 个 单词 。 






































Sr 

















2. 编码 器 


最 常见 的 编码 器 类 型 使 用 双向 RNN, 且 带 有 LSTM 或 GRU 单元 。 在 这 种 情况 下 , 编码 器 的 
输入 是 单词 或 词 能 入 的 分 布 式 表 示 。 


3. 解码 器 
解码 需 是 另 一 个 双向 LSTM 或 GRU 网 络 。 它 采用 编码 需 发 出 的 输入 文本 和 先前 所 生成 摘要 


























GD thought vector 是 Google 著名 的 深度 学 习 研 究 人 员 Geoffrey Hinton 推广 的 术语 ， 它 使 用 基 习 
善 搜索 结果 。 一 一 译 者 注 














然 语 言 的 向 量 来 改 
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字 的 向 量 表示 来 生成 下 一 个 摘要 字 。 
4. 使 用 GRU 进行 新 闻 摘 要 


在 本 例 中 ， 我 们 将 研究 如 何 使 用 LSTM 对 新 闻 文章 进行 摘要 。 本 例 的 完整 Jupyter Notebook 
可 在 本 书 的 代码 库 中 找到 ( Chapter08/02_example.ipynb )。 除 了 前 面 描述 的 基本 架构 之 外 ， 我 们 
还 将 使 用 附加 的 attention 层 。 从 之 前 文本 摘要 的 研究 工作 可 以 确定 ， 具有 attention 机 制 的 模型 要 
优 于 没有 注意 力 模 型 的 模型 。 


5. 数据 准备 
首先 ， 导 入 原始 新 闻 数 据 和 摘要 到 pandas DataFrame: 


titledata=[] 
artdata=[] 
with gzip.open('data/news.txt.gz') as artfile: 
foxr Li :im artfile 
artdata.append (1i) 
with gzip.open('data/summary .txt.gz') as titlefile: 
OK 4 EE 
titledata.append (1i) 
news = pd.DataFrame({'Text':artdata,'Summary':titledata}) 
news = news.sample (frac=0.1) 
news['Text_len'] = news.Text.apply (lambda x: len(x.split())) 
news['Summary_len'] = news.Summary.apply (lambda x: len(x.split())) 


我 们 将 查看 示例 新 闻 Text 和 Summary: 


print (news['Text'] .head(2) .values) 
print (news['Summary'] .head(2) .values) 























Output: 

[b'chinese president hu jintao said here monday that china will work with 
romania to promote bilateral trade and economic cooperation .\n' b'federal 
reserve policymakers opened a two-day meeting here tuesday to debate us 
monetary moves , a fed source reported .\n'] 


[b'chinese president meets romanian pm\n' b'federal reserve policymakers 
open two-day meeting\n'] 


对 于 词 伐 入 ,我 们 将 使 用 glove. 6B 向 量 语料库 并 将 其 载 人 到 府 入 矩阵 中 去 。 


def builgd wordq_vector_matrix(vector_ file) : 
embedding_ index = {} 
with codecs.open(vector_ file, 'r', 'utf-8') as f: 
for i, line in enumerate(f): 
sr = line.split() 
if(len(sr)&lt;26): 
continue 
word = sr[0] 
embedding = np.asarray (sr[1l:], dtype='float32') 
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embedding_index[word] = embedding 
return embedding_index 


embeddings_index = 
build word vector matrix('/Users/i346047/prs/temp/glove.6B.50d.txt') 


embeddings_index 包含 单词 到 对 应 词 向 量 的 映射 。 接 下 来 ， 我 们 将 为 新 闻 文本 和 摘要 中 
的 所 有 单词 创建 从 单词 到 整数 索引 的 映射 (反之 亦 然 ): 


word2int = {} 
count_threshold = 20 
Value = 0 
for word, count in word counts_ dict.items(): 
if count &gt;= count_threshold or word in embeddings_index: 
word2int [word] = value 
value += 1 


special_codes = [TOKEN_UNK,TOKEN_PAD,TOKEN_EOS,TOKEN_GO] 


for code :in special_ codes: 
word2int [code] = len (word2int) 


int2word = {} 
for word, value in word2int.items() : 
int2word[value] = word 


请 注意 ,我们 还 针对 词汇 表 中 不 存在 的 单词 (UNK )、 填 充 标 记 ( PAD )、 钉子 结尾 ( E0S ) 和 
起 始 标 记 (co ) 纳入 了 特殊 代码 , 由 代码 中 的 相应 常量 定义 。 填 充 标记 将 句子 填充 到 新 闻 文 本 和 
摘要 中 的 固定 长 度 。 在 训练 和 推理 过 程 中 , 句子 标记 的 开头 和 结尾 分 别 作 为 前 级 和 后 级 ,附加 到 
输入 的 新 闻 文本 中 。 接 下 来 ， 将 新 闻 文本 和 摘要 转换 为 整数 D: 


def convert_sentence_ to_ids(text, eos=False): 
wordints = [] 
word_count = 0 
for sentence in text: 
sentence2ints = [] 
for word in sentence.split(): 
word_count += 1 
if word in word2int: 
sentence2ints.append (word2int [word]) 
else: 
sentence2ints.append (word2int [TOKEN_UNK]) 














if eos: 
sentence2ints.append (word2int [TOKEN_EOS]) 
wordints.append (sentence2ints) 
return wordints, worgd_ count 


请 注意 ， 对 于 不 在 词汇 表 中 的 单词 ， 我们 分 配 了 UNK 标记 ID。 与 之 类 似 ,我们 以 E0s 标记 
来 结束 句子 。 接 下 来 , 我 们 将 丢弃 所 有 不 在 指定 最 小 和 最 大 句子 长 度 内 的 输入 文本 和 摘要 ,还 将 
删除 一 些 包 含 大 于 限制 的 未 知 单词 的 句子 : 
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news_summaries_filtered = [] 
news_texts_filtered = [] 
max_text_length = int (news.Text_len.mean() + news.Text_len.std()) 
max_summary_length = int (int (news.Summary_len.mean() + 
news.Summary_len.std())) 
min_ length = 4 
unknown_ token text_limit = 10 
unknown_ token_ summary_limit = 4 
for count,text in enumerate (id texts): 
unknown_token text = unknown_tokens (id texts[count]) 
unknown_ token_ summary = unknown_ tokens (id_ summaries[count]) 
text_len = len(iqd texts[count]) 
summary_len = len(id_ summaries[count]) 
if((unknown_ token text&gt;unknown token text_limit) or 
(unknown_token _ summary&gt;unknown token summary_limit)): 














continue 

if(text_lenglt;min length or summary_leng&lt;min _ length or 
text_leng&gt;max text_length or summary_leng&gt;max_summary_length): 

continue 


news_summaries_filtered.append(id_ summaries[count]) 
news_texts_filtered.append(iqd_ texts[count]) 


我 们 用 输入 文本 和 摘要 平均 长 度 的 一 个 标准 偏差 设 定 了 最 小 和 最 大 长 度 , 你 可 以 通过 更 改变 
量 max_summary_length、 max_text_length、 unknown_ token text_limit、 unknown_ 


token_summary_limit 和 min_length 做 出 修改 。 
现在 我 们 来 看 一 看 模型 的 创建 。 
6. 编码 网 络 
对 于 编码 器 组 件 ,我 们 利用 带 有 GRU 单元 的 双向 RNN .当然 也 可 以 使 用 LSTM 来 代替 RNN， ES 
你 可 以 对 此 展开 尝试 以 观察 模型 性 能 的 差异 : 
def get_cell (csize,dprob): 
rnc = GRUCell (csize) 


rnc = DropoutWrapper (rnc, input_keep_prob = dprob) 
return rnce 




















def encoding_layer (csize, len s, nl, rinp, dprob): 
for 1 in range(nl): 
with tf.variable_scope('encoding 1_{}'.format (1)): 

rnn_frnt = get_cell (csize,dprob) 

rnn_ bkwd = get_cell (csize,dprob) 

eop, est = tf.nn.bidirectional_ dynamic_rnn(rnn_ frnt, rnn_bkwd, 
rinp, 
len_s, 





dtype=tf.float32) 
eop = tf.concat (eop,2) 
return eop, est 


请 注意 ， 因 为 这 是 双向 的 ， 所 以 我 们 串联 了 编码 器 的 输出 。 
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7. 解码 网 络 
像 编 码 器 一 样 ， 对 于 解码 器 网 络 ， 我 们 将 使 用 带 有 GRU 单元 的 RNN。 我 们 还 将 使 用 


tf.contrib.rnn.DropoutWrapper 封装 需 类 ， 通 过 dropout 创建 nlyrs 个 GRU 层 ， 并 利 
用 BahdanauAttention 机 制 将 注意 力 集中 在 编码 器 的 输出 上 : 


def qdqecoding_layetr (dec_emb op, embs, enc_op, enc_st, v_size, txt_len, 
summ_len,mx_summ len, rnsize, word2int, dprob, 
batch_ size, nlyrs): 
for 1 in range(nlyrs): 
with tf.variable_ scopel('dec rnn layer_{}'.format (1)): 
gru = tf.contrib.rnn.GRUCell (rnn_len) 
cell_dec = tf.contrib.rnn.DropoutWrapper (gru, input_keep_prob = 











dprob) 
out_]1 = Dense(v_size, kernel initializer = 
tf.truncated normal_ initializer(mean = 0.0, stddev=0.1)) 
attention = BahdanauAttention(rnsize, enc_op,txt_len, 
normalize=False, 
name='BahdanauAttention') 
cell_dec = AttentionWrapper (cell_dec,attention,rnn_ len) 
attn_zstate = cell_dec.zero_state(batch size , tf.float32 ) 
attn_zstate = attn zstate.clone(cell_state = enc_st[0]) 
with tf.variable_ scope("decoding_ layer"): 
tr_dec_op = trng_dec_layer (dec_emb_op, 
summ_len, 
cell_dec, 
attn_zstate, 
Gut 1; 
Vv_size, 
mx_summ_len) 
with tf.variable_ scope("decoding_ layer", reuse=True): 
inf_dec_ op = infr_ dec_ layer (embs, 
word2int [TOKEN_GO], 
word2int [TOKEN_EOS], 
cell_dec, 
attn_zstate, 
ut 1 
mx_summ_len, 
batch size) 
return tr_dec _ op, inf_dec_op 


为 了 生成 attention 和 序列 到 序列 ， 我们 将 使 用 TensorFlow 中 seq2seq 库 中 的 类 。 现 在 来 看 看 
训练 期 间 的 解码 是 如 何 执 行 的 : 


def trng_dec_layer(dec emb_inp, summ len, cell _ dec, st_init, lyr_op, 
Vv_size, max_summ len): 

helper = TrainingHelper (inputs=dec_emb_inp,sequence_ length=summ_ len, 
time_ major=False) 

dec = BasicDecoder (cell_ dec,helper,st_init,1lyr_op) 

二 全 鸭 本 入 全 人 .3 二 
dynamic_dqecodqe (dec,output time major=False,impute_ finished=True, 

maximum_ iterations=max_surmm 1en) 








return logits 
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我 们 使 用 tf.contripb.seq2seq.TrainingHelper 类 将 真实 摘要 提供 给 解码 器 输入 以 进 
行 训练 。attention 状态 也 被 通过 initial_state 张 量 作为 输入 传递 给 了 解码 器 。 最 后 ， 
tf.contrib.seq2seq.dynamic_decode 国 数 对 此 输入 执行 了 解码 。 


8. 序列 到 序列 

接 下 来 ,我 们 将 研究 将 所 有 这 些 进 行 封装 的 序列 到 序列 高 级 函数 , 该 函数 读 取 输入 文本 句子 
的 词 徐 入 ， 创 建 编码 /解码 层 ， 并 生成 1ogits 作为 输出 。op_tr 和 op_inf 对 象 分 别 表示 训练 
和 推理 期 间 的 预测 : 


def seq2seq model (data_inp, data_ summ tdgt，dqprob，1Len_txt，1en_summ， 
max_len_summ, 








Vv_size, rnsize, nlyrs, word2int, batch size): 

inp_emb = word_emb matrix 

word_embs = tf.Variable(inp_emb, name="word_ embs") 

inp_enc_emb = tf.nn.embedding_lookup (word_embs, data_inp) 

op_enc, st_enc = encoding_ layer (rnsize, len txt, nlyrs, inp_enc_emb, 

dpropb) 

inp_dec = process_encoding_ input (data_summ tgt, word2int, batch size) 

inp_dec_emb = tf.nn.embedding_ lookup (inp_emb, inp_dec) 

op_tr, op_inf = decoding_ layer (inp_dec_emb, 
inp_empb, 
op_enc, 
st_enc, 
Vv_size, 
len_txt, 
len_summ, 
max_len_summ, 
rnsize, 
word2int, 
dprob, 
batch_ size, 
nlyrs) 

return op_tr, op_inf 


输出 训练 日 志 op_tr (以 及 真实 摘要 ) 用 于 计算 训练 期 间 的 代价 变化 。 
现在 我 们 看 看 如 何 建 立 图 。 

9. 建立 图 

我 们 使 用 高 级 seq2seq_model 也 数 构建 图 。 以 下 是 建立 图 和 优化 屁 的 代码 : 


train_ graph = tf.Graph() 
with train graph.as_default (): 

data_inp, tgts, lrt, dprobs, len_summ, max_len summ, len_ txt = 
model_inputs () 





tr_op, inf_op = seq2seq model (tf.reverse(data_ inp, [-1]), 
tb 
dprobs, 
len_txt, 
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len_summ, 
max_len_summ, 
len(word2int)+1, 
rnn_len, 
n_layers, 
word2int, 
batch_size) 

本 天 OO 从 .三 tf Lantity (tt OP-Fnn outputy, EE OPY) 

inf_op = tf.identity(inf_op.sample_id, name='predictions') 

seq masks = tf.sequence mask(len summ, max_len_ summ, dtype=tf.float32, 

name='masks') 


with tf.name_ scope ("optimizer"): 
tr_cost = sequence_ loss(tr_ op,tgts,seq masks) 
optzr = tf.train.AdamOptimizer (lrt) 
grds = optzr.compute_gradients (tr_cost) 
cappeqd_ grds = [(tf.clip by_value(grd, -5., 5.), var) for grd, var 
in grds 
if grd is not None] 
train_ op = optzr.apply_gradients (capped_grds) 
tf.summary.scalar ("cost", tr_cost) 
print ("Graph created.") 


我 们 利用 aaamoptimizet 最 小 化 通过 训练 logits( 逻辑 模型 ) 和 目标 摘要 词 所 计算 出 的 代 
价 。 请 注意 ， 因 为 我 们 使 用 的 是 RNN， 所 以 要 为 梯度 设置 上 限 ， 以 避免 出 现 梯 度 爆炸 的 问题 。 


10. 训练 
在 训练 中 ， 我 们 将 使 用 一 部 分 输入 数据 ， 也 可 以 通过 增加 输入 数据 以 改善 模型 的 性 能 : 


min_ learning_rate = 0.0006 
display_step = 20 
early_stop_cnt = 0 
early_stop_cnt max = 3 
per_epoch = 3 














update_loss = 0 
bateh loss = 0 
summary_update_loss = [] 


news_summaries_train = news_summaries_filtered[0:3000] 
news_texts_train = news_texts_filtered[0:3000] 
update_check = (len(news_ texts_ train)//batch_ size//per_epoch)-1 
checkpoint = logs_path + 'best_so_far model .ckpt' 
with tf.Session(graph=train graph) as sess: 
tf_summary_writer = tf.summary.FileWriter (logs_path, graph=train_ graph) 
merged_summary_op = tf.summary.merge_all() 
sess.run(tf.global_variables_initializer()) 
for epoch_ i in range(l1, epochs+1): 
update_loss = 0 
batch_ loss = 0 
for batch i, (summaries_batch, texts_batch, summaries_len, 
texts_len) in enumerate( 
get_batches (news_summaries_train, news_texts_train, 
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batch_size)): 

before = time.time!() 

_,loss,summary = sess.runl( 
[train_op, tr_cost,merged_ summary_opl], 
{data_inp: texts_batch, 
tgts: summaries_batch, 
了 
len_summ: summaries_len, 
len_ txt: texts_len, 
dprobs: dr_prob}) 


我 们 可 以 从 get_batches 函数 获取 用 于 训练 的 批 数据 。 该 函数 通过 填充 开始 和 结束 标记 来 格 
式 化 输入 文本 和 摘要 。 你 可 以 更 改 参数 ， 例 如 学 习 率 、 层 数 和 dropout 概率 来 试验 模型 的 性 能 ， 也 
可 以 增加 训练 周期 以 提高 模型 的 准确 率 。 只 要 当前 批 次 损失 较 先 前 有 所 改善 , 模型 也 会 被 保存 下 来 。 


现在 可 以 看 看 模型 的 最 终 输 出 : 


No Improvement. 

** Epoch 20/20 Batch 20/1048 - Batch Loss: 1.454, seconds: 16.15 
Average loss: 1.383 

Saving model 

** Epoch 20/20 Batch 40/1048 - Batch Loss: 1.362, seconds: 17.11 
Average loss: 1.353 


可 以 看 到 ,损失 从 初始 的 9.254 降 到 了 大 概 1.353。 请 注意 ， 每 次 运行 可 能 都 有 区 别 。 
11. 推理 


现在 ， 我 们 将 加 载 已 保存 的 模型 文件 ， 并 使 用 模型 未 知 的 输入 文本 样本 数据 对 其 进行 测试 。 
我 们 将 从 模型 中 加 载 1ogits 张 量 ， 并 使 用 它 来 推理 未 知 数据 或 测试 数据 的 摘要 文本 以 预测 输出 : 


INFO:tensorflow:Restoring parameters from 
/tmp/models/best_so_ far model .ckpt 
































Text 
Word Ids: [1286, 4050, 1283, 30463, 1284, 30648, 538, 173, 1286, 1287, 166, 82, 2122, 
8272, 1289, 179, 1290, 6526, 2122, 2518, 976, 24, 6001, 30427, 2360, 162, 20415, 977, 
30428, 54118] 


Input Words: space shuttle atlantis ' astronauts thanked the international space 
station residents for their warm hospitality and then began their journey home to earth ， 
ending a weeklong visit . 


Summary 

Word Ids: [1283, 1284, 1285, 1286, 1286, 1286] 

Response Words: atlantis astronauts thank space space space 

Ground Truth: atlantis astronauts thank space station men for hospitality then 


我 们 还 将 对 训练 数据 进行 推理 。 尽管 未 知 输入 文本 的 预测 或 摘要 与 实际 情况 相去 其 远 , 但 对 
于 训练 数据 的 预测 却 非常 接近 ， 如 以 下 输出 所 示 : 
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INFO:tensorflow:Restoring parameters from 
/tmp/models/best_so_ far model .ckpt 


Text 

Word Ids: [10651, 1190, 910, 2324, 457, 178, 1203, 3909, 126, 7746, 909, 
910, 29, 33, 4642, 745, 10903, 581, 13, 33, 911, 2796, 19, 2156, 115, 526, 
11024, 1871, 10589, 5672, 702, 10590, 11026] 


Input Words: japanese share prices closed #.## percent higher thursday as 
easing oil prices and a weaker yen buoyed confidence in a market continuing 
to recover from the shock , dealers said . 


Summary 

Word Ids: [548, 492, 493, 457, 178, 457] 
Response Words: tokyo shares close #.## percent #.## 
Ground Truth: tokyo stocks close up #.## percent 


应 当 注意 的 是 ， 模 型 在 测试 数据 上 性 能 较 差 的 原因 可 以 归结 于 我 们 用 于 训练 的 数据 集 过 小 
(训练 大 小 为 3000 个 样本 )。 你 可 以 使 用 相同 的 模型 在 更 大 的 数据 集 上 (可 能 在 GPU 上 ) 进行 训 
练 ， 以 获得 更 好 的 结果 。 

12. TensorBoard 可 视 化 


现在 ,我 们 将 使 用 TensorBoard 简要 查看 图 和 损失 函数 。 首 先 来 看 看 TensorBoard 的 图 输出 ， 
如 图 8-4 所 示 。 
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图 8-4 ”TensorBoard 图 输出 
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可 以 清楚 地 看 到 ， 编 码 层 和 解码 层 构 成 了 模型 的 主要 部 分 ， 而 Bahdanau attention 机 制 则 是 
解码 层 中 的 另 一 个 输入 。 首 先 将 输入 的 能 入 内 容 馈送 到 编码 层 , 将 其 输出 馈送 到 attention 机 制 以 
及 解码 层 。 最 后 ， 解 码 层 提供 预测 作为 输出 。 优 化 器 接受 解码 层 输出 、attention 机 制 输出 和 目标 
以 对 代价 函数 进行 优化 ， 如 图 8-5 所 示 。 





























代价 











100.0 400.0 700.0 1.000k -1,300k 











图 8-5 


我 们 还 发 现 ,代价 随 着 训练 步 数 的 增多 而 稳步 下 降 。 在 下 一 节 中 , 我 们 将 查看 一 些 近期 的 论 
文 ， 其 中 描述 了 编码 带 - 解 码 带 模型 ( 带 有 attention 机 制 ) 的 增强 功能 。 











8.2.3 ”最 新 抽象 式 文本 摘要 


在 本 节 中 , 我 们 将 看 到 两 篇 近期 的 论文 , 它们 描述 了 上 一 节 新 闻 文 本 摘要 示例 中 所 使 用 的 模 
型 的 增强 功能 。 





第 一 篇 论文 是 “Abstractive Text Summarization Using Sequence-To-Sequence RNNs and Beyond”， 
作者 是 来 自 IBM 的 RameshNallapati 等 人 。 他 们 将 神经 机 器 翻译 模型 应 用 于 文本 摘要 ， 并 且 与 最 
新 的 系统 相 比 获得 了 更 好 的 性 能 。 该 模型 使 用 双向 GRU-RNN 作为 编码 器 ,并 使 用 单 向 GRU-RNN 
作为 解码 器 。 请 注意 ， 这 与 新 闻 摘 要 示例 中 使 用 的 模型 架构 相同 。 


以 下 是 他 们 提出 的 主要 附加 增强 。 


口 除了 词 嵌入 之 外 ,还 增强 了 输入 特征 ,包括 词 性 标签 、 命 名 实体 标签 和 单词 的 TF-IDF 统 
计 信 息 。 这 有 助 于 识别 文档 中 的 关键 概念 和 实体 ， 从 而 改进 摘要 文本 。 
口 这 些 附加 特征 与 现 有 的 词 向 量 串 联 在 一 起 被 僻 入 编码 絮 。 


8-6 说 明了 附加 使 用 的 特征 : 词 宜 入 (W)、 词 性 (POS )、 命 名 实体 标签 (NER ) 以 及 术 
语 频率 、 逆 文档 频率 ( TF-IDF )。 
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图 8-6 


为 了 处 理 测试 数据 中 未 知 单词 或 外 来 (out-of-vocabulary，OOYV ) 单词 ， 他 们 使 用 了 生成 器 
指针 网 络 , 该 网 络 在 激活 时 从 源 文档 位 置 复制 单词 。 我 们 前 面 描述 的 新 闻 摘 要 示例 只 是 简单 地 忽 
略 了 OOV 单词 ， 并 用 UNK 标记 进行 了 替换 ， 这 可 能 不 会 生成 连贯 的 摘要 。 


包含 指针 生成 融 网 络 的 架构 如 图 8-7 所 示 。 
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对 于 文档 较 长 、 句 子 很 多 的 源 数据 集 ， 还 有 必要 确定 用 于 摘要 的 关键 句子 。 为 此 ,他 们 在 编 
码 侧 使 用 了 带 有 两 个 双向 RNN 的 分 层 网 络 : 一 个 作用 于 单词 级 别 ， 另 一 个 则 作用 于 句子 级 别 。 


类 似 于 Ramesh Nallapati 等 人 采用 的 方法 ， 来自 Google 的 Abigail See 等 人 的 论文 “Getto the Point: 
Summarization with Pointer-Generator Networks” 也 使 用 了 指针 生成 器 网 络 。 但 是 ， 除 了 只 处 理 
OOV 单词 外 ， 他 们 还 考虑 了 副本 分 发 和 词汇 分 布 。 副 本 分 发 要 考虑 在 源 文档 中 被 重复 使 用 的 特 
定单 词 及 其 attention， 这 增加 了 在 摘要 中 选择 单词 的 可 能 性 。 图 8-8 显示 了 如 何 组 合 词 汇 分 配 和 
attention 分 配 以 生成 最 终 摘要 。 
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8.3 ”小结 


本 章 重 点 介绍 了 文本 生成 和 文本 摘要 ,我 们 使 用 GRU 和 RNN 演示 了 一 个 文本 生成 模型 示例 
来 生成 Linux 内 核 代码 。 将 这 些 模 型 应 用 于 不 同 的 领域 或 源 输 入 文本 ， 可 以 帮助 我 们 理解 其 基础 
结构 和 上 下 文 。 接 下 来 ， 我 们 描述 了 文本 摘要 的 不 同类 型 ,介绍 了 一 种 简单 的 提取 式 摘要 方法 ， 
并 使 用 gensim 生成 产品 评论 摘要 。 提 取 式 摘要 可 从 源 文本 复制 单词 ， 而 抽象 式 摘要 可 生成 全 新 
而 直观 的 摘要 。 
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为 了 全 面 介绍 抽象 式 摘要 ， 我 们 引入 了 一 种 编码 器 -解码 器 模型 ， 该 模型 使 用 GRU 和 RNN 


来 摘要 新 闻 文本 。 最 后 ， 我 们 研究 了 一 些 先 进 方法 以 改进 基本 编码 器 -解码 器 模型 ( 带 有 attention 


机 种 



































| )。 你 可 以 在 我 们 开发 的 基础 模型 上 构建 ， 以 纳入 这 些 增强 功能 。 一 种 简单 的 增强 是 将 附加 





特 生 


E (例如 POS、NER 和 TF-IDF ) 添加 到 输入 文本 的 词 租 入 中 。 








在 下 一 章 , 我 们 将 讨论 问答 和 聊天 机 器 人 这 个 有 趣 的 主题 。 我 们 将 开发 一 个 问答 模型 ， 并 使 


用 生成 RNN 模型 构建 一 个 聊天 机 咒 人 。 


第 9 章 
使 用 记忆 网 络 完成 问答 
任务 和 编 瑟 聊天 机 器 人 








自然 语言 理解 (natural language understanding，NLU ) 任务 可 被 视 为 一 个 概括 性 术语 ， 它 涵 
盖 的 研究 领域 涉及 以 句法 和 语义 两 种 方式 对 文本 进行 推理 , 例如 文本 摘要 、 机 器 翻译 和 对 话 建 模 
( 即 聊天 机 各 人 )。 


NLP 的 一 个 有 趣 的 研究 方向 是 将 所 有 NLU 任务 分 解 为 一 个 简单 的 问答 ( question-answer， 
QA ) 框架 。 在 该 框架 中 ,模型 必须 根据 输入 文本 ( 以 有 关 狗 的 Wikipedia 文章 为 例 ) 进行 推理 并 
回答 问题 : 最 常见 的 犬 种 是 什么 ? 文章 摘要 是 什么 ?摘要 的 法 语 翻译 又 是 什么 ? 

在 本 章 中 , 我 们 将 了 解 QA 任务 , 并 介绍 一 类 称 为 记忆 网 络 的 深度 学 习 模型 以 构建 QA 系统 。 


然后 , 我 们 将 了 解 端 到 端 训练 聊天 机 器 人 模型 的 各 个 组 成 部 分 , 并 扩展 记忆 网 络 以 构建 会 话 式 聊 
天 机 各 人 。 





















































9.1 QA 任务 
从 表面 上 来 看 ,QA 任务 似乎 很 简单 给 定 一 个 问题 和 一 些 相关 事实 ( 可 选 ), 模型 要 产生 
一 个 答案 。 





传统 的 QA- 方 法 包括 基于 规则 的 模型 以 及 基于 单词 重 受 或 TF-IDF 分 数 的 信息 检索 方法 。 然 
而 , 由 于 自然 语言 的 内 在 复杂 性 , 训练 模型 以 在 语法 和 语义 上 理解 输入 以 及 相关 事实 还 是 有 挑战 
性 的 。 深度 神经 网 络 无 须 手 工 或 特征 工程 就 能 学 会 对 复杂 信息 的 建 借 , 已 逐渐 成 为 处 理 这 些 任 务 
的 先进 网 络 。 











QA 数据 集 


根据 是 否 要 求 回 答 或 答案 的 形式 ， 各 个 问答 数据 集 有 所 不 同 。 我 们 将 简要 概述 一 些 常 见 的 
QA 学 术 数 据 集 及 其 主要 特征 ， 如 表 9-1 所 示 。 
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表 9-1 
数据 集 名 称 描 述 类 别 
bAbI text understanding tasks ”这 套 包 含 20 个 综合 生成 任务 的 套件 旨 在 测试 NLU 模 型 所 应 具备 的 一 选择 











些 基 本 技能 。 每 个 任务 都 根据 在 其 环境 中 采取 各 种 动作 的 段落 来 训练 
模型 ， 以 回答 有 关 该 环境 状态 的 问题 
SQuAD: Stanford Question SQuAD 包含 与 Wikipedia 文章 相关 的 问题 , 并 且 要 求 模 型 在 文章 中 选 答案 范围 









































Answering Dataset 择 答 案 范围 作为 对 该 问题 的 答案 。 它 是 当今 最 受 欢 迎 的 QA 据 集 
VQA: Visual Question 在 VQA 中 ， 要 进行 推理 的 输入 是 图 像 而 非 文本 。 模 型 必须 学 会 对 像 选择 
Answering Dataset 素 进行 推理 以 选择 有 关 图 像 文本 问题 的 答案 








AI2 Reasoning Challenge ARC 数据 集 包 含 科 学 多 选 题 ， 以 从 中 选择 答案 。 它 是 专门 为 揭示 当 多 选 
前 神经 网 络 模型 的 缺点 而 设计 的 〈 这 些 模型 声称 可 以 对 如 SQuAD 和 
bAbI 的 简单 数据 集 进 行 语言 理解 ) 























9.2 用 于 QA 任务 的 记忆 网 络 


2014 年 ，Weston 等 人 在 端 到 端 训练 的 QA 系统 的 基础 上 提出 了 记忆 网 络 , 这 是 用 于 NLU 任 
务 的 一 类 神经 网 络 模 型 ,给 定 问 题 和 一 些 支 持 事实 或 相关 信息 , 其 任务 是 生成 或 选择 适当 的 答案 。 
该 模型 将 这 些 事实 存储 在 持久 性 内 存 中 ， 并 被 训练 以 根据 这 些 事实 执行 推理 ， 产 生 适 当 的 响应 。 











有 关 该 主题 的 第 一 篇 论文 名 为 “Memory Networks”， 作 者 是 Jason Weston 、Sumit 
Chopra 和 Antoine Bordes。 


QA 任务 种 类 繁多 ， 因 此 记忆 网 络 提供 了 一 种 灵活 的 模块 化 框架 ， 存 储 在 内 存 中 的 事实 可 能 
从 文本 到 图 像 不 等 ， 并 且 答 案 可 以 从 一 组 候选 项 中 生成 或 检索 出 来 。 








9.2.1 记忆 网 络 管道 概述 

记忆 网 络 的 架构 通常 可 以 分 解 为 四 个 部 分 : 问题 模块 、 输 入 模块 、 记 忆 模 块 和 输出 模块 。 按 
照 神经 网 络 的 惯例 ， 信 息 通过 密集 的 向 量 / 峙 入 从 一 个 模块 传递 到 另 一 个 模块 ， 从 而 使 用 梯度 下 
降 来 端 对 端 地 训练 模型 的 参数 ， 如 图 9-1 所 示 。 
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下 面 解释 了 模型 的 工作 方式 。 


口 输入 模块 收 到 多 个 事实 并 将 其 编码 到 向 量 中 。 

口 与 输入 模块 类 似 ， 问 题 模块 也 负责 将 问题 编码 为 向 量 。 

口 记忆 模块 从 输入 模块 接收 编码 好 的 事实 ， 从 问题 模块 接收 编码 好 的 问题 ， 并 对 事实 执行 
soft attention 机 制 以 弄 清 其 与 问题 之 间 的 相关 性 。attention 的 结果 是 给 定 问题 的 上 下 文身 
量 ， 对 问题 以 及 回答 该 问题 所 需 的 所 有 上 下 文 信息 进行 编码 。 

口 输出 模块 接收 上 下 文 向 量 ， 并 负责 产生 对 应 格式 的 答案 。 这 可 能 意味 着 从 候选 集中 选择 

适当 的 响应 、 对 答案 范围 的 预测 或 逐 词 生成 响应 。 















































9.2.2 ”使 用 TensorFlow 写 一 个 记忆 网 络 


在 以 下 小 节 中 ， 我们 将 研究 Sukhbaatar 等 人 提出 的 简单 记忆 网 络 架 构 ( 他 们 使 用 该 网 络 在 
2015 年 建立 了 基于 检索 的 QA 系统 )。 我 们 将 提供 代码 片段 以 构建 通用 的 记忆 网 络 类 ， 并 在 此 过 
程 中 说 明 模型 的 工作 原理 和 详细 信息 。 























关于 该 模型 的 详细 信息 可 以 在 Sainbayar Sukhbaatar 、Arthur Szlam、Jason Weston 
和 Rob Fergus 的 论文 “End-to-End Memory Networks” 中 找到 。 


1. 类 构造 器 


我 们 将 定义 一 个 构造 函数 ， 用 于 初始 化 记忆 网 络 的 initializer 对 象 、 optimizer 对 象 
和 最 小 批 大 小 等 参数 。 我 们 还 将 为 损失 、 预 测 和 训练 编写 高 级 TensorFlow 操作 。 所 有 这 些 都 取 
决 于 _inference 方法 ,我们 将 在 下 面 对 该 方法 进行 实现 : 


class MemoryNetwork (object): 
def _ init__(self, sentence_ size, vocab size, candidates_size, 

candidates_vec, embedding_size, hops, 
initializer=tf.random normal_ initializer(stddev=0.1), 
optimizer=tf.train.AdamOptimizer (learning_ rate=0.01), 
session=tf.Session()): 

self._hops = hops 

self._candidates_vec = candidates_vec 

# 定义 模型 的 输入 占 位 符 











self._facts = tf.placeholder!( 

tf.int32, [None, None, sentence size], name="facts") 
self. questions = tf.placeholder!( 

tf.int32, [None, sentence size], name="questions") 
self._answers = tf.placeholder!( 

tf.int32, [None], name="answers") 
# 定义 用 于 推理 的 训练 变量 
with tf.variable_scope ("MemoryNetwork"): 








用 于 输入 事实 和 问题 的 谋 入 查找 算 阵 


self.word_ emb matrix = tf.Variable (initializer!\( 
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[vocab_size, embedding_size]), name="A") 

# 在 推理 中 用 于 线性 变换 的 给 阵 

self.transformation matrix = tf.Variable(initializer!\( 
[embedding_size, embedding sizel]), name="H") 

# 用 于 输出 响应 的 词 庶 入 

self.output_word_ emb matrix = tf.Variable(initializer!\( 
[vocab_size, embedding_ size]), name="W") 


# 在 推理 预测 上 计算 交叉 粒 误 差 

Jogits = self._ inference(self._facts, self._questions) 

cross_entropy = tf.nn.sparse_ softmax_ cross_entropy_with logits( 
logits=logits, labels=self._answers, name="cross_entropy") 

cross_entropy_sum = tf.reduce_ sum( 





cross_entropy, name="cross_entropy_sum") 


# 定义 损失 操作 


self.loss_op = cross_entropy_sum 


# 定义 梯度 管道 
grads_and vars = optimizer.compute_gradqients(self.loss_op) 
# 定义 训练 操作 
self.train op = optimizer.apply_gradients!( 
grads_and vars, name="train op") 


# 定义 预测 操作 

self.predict_op = tf.argmax(logits, 1, name="predict_op") 
# 加 载 会 话 并 初始 化 所 有 变量 

self._session = session 
self._session.run(tf.initialize all variables()) 


2. 输入 模块 


输入 模块 对 每 个 输入 事实 中 的 所 有 单词 进行 词 租 入 查找 , 然后 治 时 序 方向 求 和 ( 即 对 事实 中 
每 个 单词 的 向 入 求 和 ) 来 为 每 个 事实 构建 单独 庶 人 : 


def _input_modqule(self，facts) : 
with tf.variable_scope("InputModule"): 
facts_emb = tf.nn.embedding_lookup(self.word emb matrix, 
facts) 





return tf.reduce_sum(facts_emb, 2) 
问题 模块 


问题 模块 执行 与 输入 模块 相同 的 葵 入 查找 和 时 间 求 和 任务 。 两 个 模块 之 间 共 享 丛 入 矩阵 和 单 
词 词汇 : 


def _gquestion module(self, questions): 
with tf.variable_ scope("QuestionModule"): 
Guestions_emb = tf.nn.embedding_lookup( 
self.word_ emb _ matrix, questions) 
return tf.reduce_suml(questions_emb, 1) 
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由 于 我 们 正在 构建 概念 上 最 为 简单 的 记忆 网 络 , 因此 不 使 用 复杂 的 句子 表示 模型 ,例如 RNN 
或 CNN。 记忆 网 络 架 构 的 模块 化 性 质 让 进一步 开展 实验 变 得 非常 轻松 。 

4. 记忆 模块 

记忆 网 络 模 型 的 神奇 之 处 在 于 记忆 模块 ， 该 模块 对 事实 移入 执行 soft attention 机 制 。 有 关 记 
忆 网 络 和 其 他 基于 attention 的 模型 的 文献 介绍 了 许多 类 型 的 attention 机 制 , 但 是 这 些 机 制 都 依赖 
于 元 素 点 积 的 概念 , 并 且 计 算 两 个 向 量 之 间 的 和 以 作为 衡量 语义 或 句法 相似 性 的 运算 。 我 们 称 其 
为 reduce-dot 操作 ， 该 操作 接收 两 个 向 量 并 得 到 一 个 表示 相似 度 分 数 的 数 。 


我 们 制定 了 以 下 attention 机 制 。 


(1) 上 下 文 向 量 用 于 对 产生 输出 所 需 的 所 有 信息 进行 编码 ， 并 被 初始 化 为 问题 向 量 。 

(2) 每 个 事实 向 量 和 上 下 文 向 量 之 间 的 reduce-dot 操作 为 我 们 提供 了 每 个 事实 向 量 的 相似 性 
分 数 。 

(3) 然后 ， 对 这 些 相 似 性 分 数 进行 softmax 运算 ， 将 其 归 一 化 为 0 和 1 之 间 的 概率 值 。 

(4) 对 于 每 个 事实 向 量 ， 都 将 向 量 的 每 个 元 素 乘 以 其 相似 度 概 率 值 。 

(5) 最 后 ， 对 这 些 加 权 事实 向 量 进行 元 素 求 和 ， 以 获取 上 下 文 表示 ， 其 中 某 些 事实 比 其 他 事 
实 具有 更 高 的 权重 。 

(6) 通过 在 元 素 上 添加 此 上 下 文 表示 来 更 新 上 下 文 向 量 。 

(7) 更 新 的 上 下 文 向 量 用 于 关注 事实 向 量 , 随后 使 用 事实 的 多 次 遍历 ( 称 为 跃 点 ) 来 进一步 更 新 。 


这 些 步 骤 可 以 通过 记忆 模块 的 拓展 视角 进行 理解 ， 如 图 9-2 所 示 。 
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因为 没有 用 于 执行 reduce-dot 操作 的 高 级 封装 API， 所 以 必须 在 TensorFlow 中 使 用 类 似 于 
Numpy 的 原子 操作 来 编写 我 们 的 记忆 模块 : 


def _memory _ modqule(self，dquestions_emb，facts_emb) : 
with tf.variable_scope("MemoryModule" ) : 
initial_context_vector = questions_emb 
context_vectors = [initial_ context_vector] 
# 在 事实 上 执行 多 路 点 attention 以 更 新 上 下 文 向 量 
for hop in range(self._ hops): 
# 执行 Treduce_qdot 
Context_temp = tf.transposel 
tf.expangd dims (context_vectors[-1], -1), [0, 2, 1]) 
similarity_scores = tf.reduce_ sum( 
facts_emb * context_temp, 2) 
计算 相似 度 概 率 
probs = tf.nn.softmax(similarity_scores) 
执行 attention 乘法 
probs_temp = tf.transpose(tf.expangd dims (probs, -1), 
[0; 2; 1]) 
facts_ temp = tf.transpose(facts_emb, [0, 2, 1]) 
context_rep = tf.reduce_sum(facts_temp*probs_temp, 2) 
更 新 上 下 文 向 量 


context_vector = tf.matmul (context_vectors[-1], 





self.transformation matrix) \ 
+ Context_rep 
# 添加 到 上 下 文 向 量 列表 末尾 以 在 下 个 跃 点 使 用 
Context_vectors.append (context_vector) 
# 返回 最 后 一 个 跃 点 的 上 下 文 向 量 
return context_vector 


每 个 跃 点 可 能 会 关注 事实 的 不 同方 面 。 使 用 这 种 多 路 点 attention 机 制 会 产生 更 为 丰富 的 上 下 


文 向 量 。 该 机 制 使 模型 能 够 逐步 了 解 事实 并 进行 推理 , 通过 可 视 化 每 个 跃 点 的 相似 度 概 率 值 可 以 
看 到 ， 如 图 9-3 所 示 。 


























故事 〈2 : 2 支撑 事实 ) 跃 点 1 跃 点 2 | 跃 点 3 
John dropped the milk. 

John took the milk there. 

Sandra went back to the bathroom. 
John moved to the hallway. 

Mary went back to the bedroom. 
Where is the milk? 答案 : hallwa 预测 : hallwa 




















图 9-3 
5. 输出 模块 
输出 模块 通常 取决 于 手头 的 任务 。 在 本 例 中 ， 它 被 用 于 从 一 组 候选 项 中 检索 最 合适 的 答复 。 
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为 此 , 它 首 先 通 过 与 输入 模块 和 问题 模块 相同 的 方式 将 每 个 候选 对 象 转换 为 蔡 入 , 然后 从 存储 模 
块 中 获取 每 个 候选 项 般 入 与 上 下 文 向 量 的 点 积 。 对 于 每 个 候选 项 , 我 们 都 会 获得 其 与 上 下 文 向 量 
的 相似 度 或 匹配 分 数 。 为 了 进行 推理 ， 对 所 有 候选 者 的 相似 度 值 应 用 softmax 函数 以 选择 最 为 合 
适 的 那个 : 
def _output_ modulel(self, context_vector): 
with tf.variable_scope ("OuptutModule"): 
candidates_emb = 


tf.nn.embedding_ lookup(self.output_ word_ emb matrix, 
self._candidates_vec) 








candidates_emb_sum = tf.reduce_suml(candidates_emb, 1) 
return tf.matmul (context_vector, 
tf.transpose (candidates_emb_sum)) 


如 果 任 务 需 要 生成 响应 而 非 检索 ， 则 可 以 使 用 RNN 以 类 似 于 机 器 翻译 任务 的 方式 逐个 词 元 
地 生成 答案 。 


整合 起 来 


我 们 可 以 编写 一 个 inference 方法 ,将 各 个 模块 整合 到 同一 个 管道 中 ， 用 于 读 取 输 入 和 问 
题 、 获 取 上 下 文 向 量 并 生成 输出 : 


def _inference(self, facts, questions): 
with tf.variable_scope ("MemoryNetwork"): 
input_vectors = self._input_ module (facts) 
question vectors = self._question module(questions) 
context_vectors = self. memory_ module(gquestion vectors, 
input_vectors) 
output = self._output_module(context_vectors) 


return output 


最 后 ,我 们 定义 fit 和 predict 函数 。 这 些 函 数 使 用 记忆 网 络 作为 较 大 管道 的 一 部 分 来 进 
行 训练 和 预测 。 我 们 使 用 feed_aict 将 数据 传递 到 初始 化 代码 所 定义 的 操作 中 ， 该 操作 随后 将 


运行 inference 国 数 : 





def fit(self, facts, questions, answers): 
feed dict = {self._facts: facts, 
self._ questions: questions, 
self._answers: answers} 
loss, _ = self._ session.run([self.loss_op, self.train op]， 
feed_ dict=feed_dict) 


return loss 


def predict (self, facts, questions): 
feed dict = {self._facts: facts, self._questions: questions} 
return self._ session.run(self.predict_op, feed_ dict=feed dict) 
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9.3 ”拓展 记忆 网 络 以 进行 对 话 建 模 


我 们 将 对 话 视 为 两 个 参与 者 (例如 A 和 B ) 之 间 基 于 话 轮 的 会 话 ， 其 中 每 轮 对 话 都 包含 A 
的 发 声 (utterance ) 和 B 的 响应 (response )。 我 们 可 以 将 产生 每 轮 的 响应 视 为 NLU 任务 ， 通 过 
查询 之 前 的 整个 会 话 历 史 为 传人 的 查询 选择 或 生成 适当 的 响应 。 


我 们 已 经 讨论 了 如 何 构建 基于 记忆 网 络 的 QA 模型 。 该 模型 将 一 个 问题 和 一 些 相 关 事 实 作为 
输入 , 并 通过 对 事实 进行 推理 来 生成 对 于 该 问题 的 响应 。 为 了 有 效 地 将 对 话 建 模 为 此 类 框架 的 一 
部 分 , 我 们 将 每 次 对 话 时 的 发 声 视 为 一 个 问题 输入 ， 而 整个 对 话 历史 则 是 事实 。 记 忆 网 络 将 基于 
此 产生 响应 ， 如 网 9-4 所 示 。 
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图 9-4 

为 了 使 对 话 在 下 一 轮 继续 进行 , 先前 的 发 声 和 响应 对 需要 被 添加 到 会 话 历 史 中 去 。 然 后 该 模 
型 将 被 用 于 处 理 下 一 次 发 声 并 产生 适当 的 响应 ， 直 至 对 话 结束 。 

在 深入 研究 记忆 网 络 聊天 机 器 人 背后 的 代码 之 前 , 我 们 将 介绍 一 些 对 话 数据 集 , 并 特别 讨论 
Facebook AI 研究 所 用 的 bAbI dialog 数据 集 。 








9.3.1 ”对 话 数据 集 
对 话 任 务 通常 分 为 两 大 类 : 开放 式 会 话 (也 称 为 聊天 ) 系统 和 面向 目标 系统 。 
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开放 式 会 话 系统 通常 处 理 不 受 话题 限制 的 对 话 , 并 使 用 来 自 Twitter 会 话 、reddit 回复 或 类 似 
论坛 帖子 的 大 规模 语 料 进 行 训练 。 大 多 数 开放 式 任务 需要 生成 响应 , 因此 大 多 数 模型 使 用 seq2seq 
框架 ， 类 似 于 机 器 翻译 或 文本 摘要 ， 并 结合 翻译 指标 〈 例 如 BLEU 得 分 ) 和 人 工 来 评估 。 


除了 语言 建 模 和 生成 之 外 ,构建 这 些 神经 会 话 模型 所 涉及 的 主要 挑战 是 缺乏 一 致 性 ， 因 为 
模型 是 在 许多 不 同 说 话 者 之 间 的 对 话 中 进行 训练 ， 并 且 倾 向 于 产生 不 明确 的 答案 ( 例如 “我 不 
知道 ”)。 

面向 目标 对 话 系统 则 旨 在 用 于 用 户 和 机 上 需 人 之 间 的 特定 交互 ， 例 如 客户 服务 、 餐 厅 预 订 、 电 
影 预订 或 其 他 礼仪 服务 。 模 型 通过 择 空 填充 来 预测 对 话 状 态 或 在 每 次 对 话 框 打开 时 选择 最 为 合适 
的 响应 ， 我 们 可 以 通过 这 些 能 力 对 模型 开展 评估 。 

面向 目标 系统 的 主要 挑战 是 将 先 验 知识 、 会 话 历 史记 录 和 上 下 文 结合 起 来 , 以 实现 所 设 定 的 
目标 。 因 此 ， 最 常见 的 架构 包括 上 一 节 所 说 的 用 于 开展 会 话 的 扩展 QA 模型 。 


bAbl dialog 数据 集 


bAbI dialog 数据 集 ( 由 Bordes 等 人 于 2016 年 引入 ) 是 最 简单 的 面向 目标 对 话 数据 集 ， 旨 在 
测试 饭店 预订 领域 中 端 对 端 训练 的 系统 。 如 先前 所 述 ， 对 话 任 务 对 bAbI 任务 进行 了 补充 ， 有 助 
于 文本 理解 。 










































































关于 创建 和 使 用 bAbI dialog 数据 集 的 完整 信息 可 以 在 Antoine Bordes、Y-Lan 
GP Boureau 和 Jason Weston 的 论文 “Learning End-to-End Goal-Oriented Dialog” 中 
找到 。 


将 领域 设 定 在 餐厅 预定 方面 ， 合 成 生成 的 数据 集 将 机 器 人 与 用 户 之 间 的 对 话 分 解 为 五 个 任 
务 ， 以 测试 对 话 系统 应 具备 的 某 些 关键 功能 。 给 定 包含 餐厅 及 其 属性 (位置 、 美 食 类 型 等 ) 的 知 
识 库 ( knowledge base，KB )， 对 话 的 目的 就 是 为 用 户 预 订 和 餐厅。 完整 的 对 话 分 为 多 个 阶段 ， 9 
个 阶段 测试 模型 是 否 可 以 学 习 到 某 些 能 力 ， 例 如 隐 式 对 话 状态 跟踪 、 在 对 话 中 使 用 知识 库 事实 ， 
以 及 处 理 未 出 现在 训练 集 对 话 中 的 新 实体 。 


9-5 能 使 你 对 任务 有 一 个 更 好 的 理解 。 
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on it! 
Where should it be? 





OK let me look into some options for you. 













our. 
there anything else to update? 
Ok let me look into some options for you. 


* The_ Place R_phone The Place ne 
* The Place R_cuisine b: 
* The Place R addr: 






a 1o 
六 The Place Ra 1al 3 0 
* The_Place R price 
* The Place R rating 7 
* The Fancy Pub R_ phone The Fancy Pub phone 
* The Fancy Pub R cuisine 0 
* The_ Fancy_Pub R_add: The 1 





* The Fancy Pub R ty 
* The Fancy Pub R price ex pensive 


* The Fancy Pub R_rating 8 
What do you think of this option: The_Fancy Pub 
ke that. 





Sure, let me find an other option for you. 
What do you think of this option: The_Place 





Great let me do the reservation. 





Here it is: The_Place_address. 
任务 4 


1s there anything else IT can help you with? 


You're welcome. 





而 
”发 出 API 调 用 


| 


任务 2 


oy pa 


\ 任务 3 





[ 展示 选项 


提供 额外 信息 


任务 5 执行 完整 对 话 











图 9-5 





会 话 是 由 模拟 器 (以 固定 模板 格式 ) 基于 包含 所 有 餐厅 及 其 属性 的 基本 知识 库 生 成 的 。 每 个 





餐厅 都 由 美食 类 型 ( 10 种 选择 ， 例 如 意大利 、 印 度 风 味 )、 位 置 ( 10 种 选择 ， 例 如 伦敦 、 


东京 )、 


价格 范围 (便宜 、 适 中 或 昂贵 )、 聚 会 规模 (2 人 、4 人 、6 人 或 8 人 ) 和 一 个 评分 (从 1 到 8) 








来 定义 。 每 个 餐厅 也 都 有 一 个 地 址 和 电话 号 码 。 对 知识 库 进 行 API 调用 将 返回 与 所 有 满足 以 下 四 
个 参数 的 餐厅 有 关 的 事实 列表 : 位 置 、 美 食 类 型 、 价 格 范围 和 聚会 规模 。 除 了 用 户 和 机 顺 人 的 发 
声 之 外 ， 每 个 任务 中 的 对 话 还 包括 API 调用 和 所 产生 的 事实 。 在 随机 选择 四 个 必 填 字段 (位置 、 





美食 类 型 、 价 格 范围 和 聚会 规模 ) 之 后 ， 使 用 自然 语言 模式 生成 会 
如 人 有 15 种 模式 〈 用 户 可 以 用 四 种 不 同 的 方式 说 话 ， 而 机 器 人 的 说 话 方式 只 有 一 种 )。 





话 。 用 户 有 43 种 模式 ， 


而 机 


尽管 这 些 任 务 旨 在 于 面向 目标 的 环境 中 用 作 分 析 对 话 系统 缺点 的 框架 , 但 我 们 将 专注 于 第 五 
项 任务 : 进行 完整 的 会 se 的 对 话 脚本 中 , 并 且 可 以 





训练 一 个 简单 的 聊天 机 器 人 来 预订 餐厅 
@ 原始 数据 格式 


五 个 任务 各 自 包 含 1000 个 对 话 ， 分 别 用 于 训练 、 验 证 和 测试 。 每 个 任务 的 文件 格式 如 下 : 
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ID user_utterance [tab] bot_response 


给 定 对 话 的 ID 从 1 开始 并 随 着 对 话 而 递增 。 当 文件 中 的 ID 被 重新 设置 为 1 时, 之 后 的 句子 
将 会 作为 新 对 话 的 开始 。 以 下 是 原始 对 话 数据 的 示例 : 


四 国生 hello what can i help you with today 

2 can you make a restaurant reservation with french cuisine for four 
people in an expensive price range Li On Lt 

&lt;SILENCE&gt; where should it be 

tokyo please ok let me look into some options for you 
&lt;SILENCESgt; api_call french tokyo four expensive 


该 模型 必须 学 会 预测 用 户 发 声 后 的 机 器 人 响应 。 响 应 可 以 是 一 个 句子 或 一 个 API 调用 (以 
api_call 开头 )。 

















心 ww 





Ul 


9.3.2 ”使 用 TensorFlow 编 写 一 个 聊天 机 器 人 

在 以 下 各 节 中 ， 我 们 将 通过 管道 使 用 bAbI dialog 数据 集 进行 训练 并 与 记忆 网 络 聊天 机 器 人 
进行 交互 : 我 们 将 加 载 并 处 理 数据 , 以 使 其 与 记忆 网 络 框架 兼容 , 然后 围绕 所 述 模型 编写 封装 器 ， 
最 后 训练 我 们 的 聊天 机 器 人 。 

1. 以 QA 格式 导入 对 话 数 据 集 

如 上 一 节 所 述 ， 我 们 需要 在 每 次 对 话 时 将 逐 行 会 话 的 对 话 数据 转换 为 (事实 ， 问题 ， 答 案 ) 
的 元 组 格式 。 为 此 ， 需 要 编写 一 个 方法 ， 从 原始 对 话语 料 库 中 读 取 行 数 据 ， 并 返回 所 需 的 元 组 以 
在 记忆 网 络 范式 中 进行 训练 。 

由 于 我 们 将 使 用 词 向 量 作 为 模型 的 输入 , 首先 需要 定义 一 个 tokenize 方法 , 将 句子 转换 为 
单词 列表 ( 除去 特殊 符号 和 常用 单词 ): 


def tokenize(sent): 
































stop_words = {"a", "an", "the"} 
sent = sent.lower() 
if sent == '&lt;silence&gt;': 


return [sent] 
# 将 身子 转变 为 词 元 
result = [word.strip() for word in re.split('(\W+)?', sent) 
if word.strip() and word.strip() not in stop_words] 


# 清理 
if not result: 
result = ['&lt;silence&gt;'] 
iTf eslt [1] "oF. eSUult [~L]e= "3 "0r ,result Tl]1]ss. ls 


result = result[:-1] 
return result 


然后 ， 我 们 可 以 定义 一 个 函数 来 从 bAbI dialog 数据 集中 读 取 原始 数据 文件 并 进行 处 理 。 我 
们 逐 行 解析 文件 中 的 文本 ， 并 跟踪 数据 中 所 有 潜在 的 (事实 ,问题 , 答案) 元 组 。 当 我 们 从 一 行 移 
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中 








到 下 一 行 时 , 将 不 断 更 新 对 话 框 中 的 
声 ， 响 应 ) 对 的 行 : 


def parse _ dialogs_ per_response(lines, candidates_to_ idx): 
data = [] 
facts_temp = [] 
utterance_temp = None 
response_temp = None 


事实 列表 , 并 在 遇 到 空白 行 时 将 其 重 置 , 还 需 注意 不 包含 (发 


# 逐 行 解析 
for line in lines: 
line = 1ine.strip() 
if line: 
id, line = line.split(' ', 1) 


if '\t' in line: # 有 发 声 和 响应 
utterance temp, response temp = line.split('\t') 
# 将 答案 转换 为 整数 索引 
answer = candidqates_to_idqx[response_temp] 
# 身子 分 词 
utterance temp = tokenize(utterance temp) 
response_temp = tokenize(response_ temp) 
# 将 (事实 ， 问 题 ， 答 案 ) 元 组 添加 到 数据 中 
data.append((facts_ temp[:], utterance temp[:], answer)) 
# 增加 发 声 / 响 应 编码 
utterance temp.append('s$u') 
response_temp.append('sr') 
# 增加 话 轮 计 数 时 序 编 码 
utterance temp.append('#' + id) 
response_temp.append('#' + id) 
# 更 新 事实 
facts_temp.append (utterance_temp) 
facts_temp.append (response_ temp) 

else: # 有 知识 库 事实 
response_ temp = tokenize(1ine) 
response_temp.append('s$r') 
response_temp.append('#' + id) 
facts_temp.append (response_temp) 

else: # 新 对 话 
facts_temp = [] 
return data 


需要 注意 一 个 重要 而 细微 的 差别 : 我 们 在 数据 里 所 有 事实 、 问 题 和 响应 的 标记 化 版 本 中 添加 
了 两 个 额外 的 符号 〈 发 声 / 响 应 编码 和 话 轮 计 数 编码 )。 这 导致 我 们 的 模型 将 这 些 编码 也 视 为 单词 
并 为 其 建立 了 词 向 量 。 话 语 /响应 编码 有 助 于 模型 区 分 用 户 和 机 器 人 说 出 的 句子 ， 而 话 轮 计数 编 
码 则 可 以 在 模型 中 建立 时 序 上 的 理解 。 


在 这 里 ，candigates 字典 是 候选 答案 到 整数 索引 的 映射 。 我们 需要 进行 这 样 的 转换 ， 因 为 
记忆 网 络 将 对 候选 项 、 字 典 整数 条 目 执行 softmax 运算 ， 然 后 将 其 指向 所 选 的 响应 。 我 们 可 以 直 
接 从 包含 所 有 可 能 响应 候选 文件 的 文件 中 逐 行 构建 canGidates 字典 ， 以 及 响应 候选 本 身 的 标 
记 化 版 本 ， 如 以 下 代码 所 示 : 
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candidates = [] 
candidates_to_idx = {} 
with open('dialog-babi/dialog-babi-candidates.txt') as f: 
for i, line in enumerate(f) : 
candidates_to_idx[line.strip().split(' ', 1)[1]] = i 
line = tokenize(line.strip())[1:] 
candidates.append (line) 


接 下 来 , 使 用 刚 定义 的 解析 方法 可 以 通过 candiqdates 字典 来 载 人 QA 格式 的 训练 、 验 证 和 
测试 对 话 。 

talin. date EE 

with open('dialog-babi/dialog-babi-task5-full-dialogs-trn.txt') as f: 


train data = parse dialogs_ per_response(f.readlines(), 
candidates_to_idx) 





test_data = [] 

with open('dialog-babi/dialog-babi-task5-full-dialogs-tst.txt') as f: 
test_data = parse_dialogs_per_response(f.readlines(), 

candidates._ to_idx) 


val_data = [] 
with open('dialog-babi/dialog-babi-task5-full-dialogs-dev.txt') as f: 
val_data = parse_dialogs_ per_responsel(f.readlines(), candidates_to_idx) 


2. 向 量化 数据 


数据 预 处 理 的 最 终 阶段 是 向 量化 或 量化 对 话 和 候选 项 ,这 需要 将 每 个 单词 或 标记 转换 为 整数 
值 ， 即 将 单词 的 任何 序列 转换 为 与 每 个 单词 相对 应 的 整数 序列 。 


我 们 首先 编写 一 种 向 量化 候选 文本 的 方法 , 还 必须 牢记 每 个 向 量化 候选 对 象 的 固定 单词 长 度 
(sentence_size )。 因 此 ， 我 们 需要 用 0 来 填充 长 度 小 于 所 需 大 小 的 候选 向 量 : 


def vectorize_candidates (candidates, word_idx, sentence_ size): 
# 确定 最 终 向 量 的 形状 
shape = (len(candidates), sentence_size) 
candidates_vector = [] 
for i, candidate in enumerate(candidates): 
# 确定 零 填 充 
Zero_padding = max(0, sentence_ size - len(candidqate) ) 
# 附加 到 最 终 向 量 末 尾 
candidates_Vvector.append ( 
[word_idx[w] if win word_ idx else 0 for w in candidate] 
+ [0] * Zero_padding) 
# 以 TensorFlow 常量 返回 
return tf.constant (candidates_vector, shape=shape) 


接 下 来 , 我 们 将 以 类 似 的 方式 编写 一 种 方法 以 向 量化 对 话 数 据 。 我们 需要 关注 的 另 一 个 重要 
方面 是 确保 将 每 个 数据 样本 的 事实 向 量 与 空 记忆 向 量 ( sentence_size 为 0 的 向 量 ) 填充 至 固 
定 的 记忆 大 小 : 
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def vectorize_dqatal(dqata，wordq_idqx，sentence_size，batch size， 


max_memory size) : 


facts_vector = [] 
questions_vector = [] 
answers_vector = [] 


# 对 数据 根据 事实 量 降序 排序 


data.sort (key=lambda x: len(x[0]), reverse=True) 
for i, (fact, question, answer) in enumerate(data): 
# 找到 存储 大 小 
Tf tS batceh size ==. 0% 


memory_size = max(1, min(max memory_size, len(fact))) 
# 构建 事实 向 量 
fact_vector = [] 
for i, sentence in enumerate(fact, 1): 

fact_ padding = max(0, sentence_ size - lenl(sentence)) 

fact_vector.appendl( 

[word_idx[w] if win word_ idx else 0 for w in sentencel 
+ [0] * fact_padding) 

# 保存 适合 记忆 的 最 新 句子 
fact_vector = fact_ vector[::-1][:memory_size][::-1] 
# 填充 到 memory_size 
memory_padding = max(0, memory_size - lenl(fact_ vector)) 
for _ in range(memory_padding): 

fact_vector.append([0] * sentence_ size) 
# 建立 问题 向 量 
question padding = max(0, sentence size - lenl(question)) 
question vector = [word idx[w] it win word_ idx else 0 

for w in gquestion] \ 
+ [0] * question padding 
# 附加 到 最 终 向 量 末尾 
facts_vector.append (np .array (fact_vector)) 
Guestions_vector .append (np .array (question Vector) ) 
# 答案 已 经 是 对 应 于 一 个 候选 项 的 整数 了 
answers_vector.append (np.array (answer)) 
return facts_vector, questions_vector, answers_vector 








要 强调 的 是 需要 事先 对 这 些 维度 有 所 了 解 ， 因 为 我 们 会 将 这 些 向 量 发 送 到 TensorFlow 模型 ， 





而 该 模型 需要 知道 输入 的 大 小 才能 构建 模型 图 。 
3. 在 聊天 机 器 人 类 中 封装 记忆 网 络 模型 
我 们 将 把 数据 提供 给 通用 的 聊天 机 器 人 类 , 并 调用 其 中 的 向 量化 方法 。 我 们 将 使 用 它 作 为 先 








前 定义 的 记忆 网 络 模型 的 封装 器 。 从 理论 上 讲 ， 该 模型 可 以 被 蔡 换 成 其 他 任何 基于 QA 的 模型 。 
@ 类 构造 器 


会 


使 月 


cla 








有 class 构造 函数 ， 我 们 可 以 加 载 数 据 和 候选 项 ， 构 建 词汇 表 ， 然 后 初始 化 TensorFlow 


话 和 记忆 网 络 对 象 : 


ss ChatBotWrapper (object): 
def __init__(self, train data, test_data, val_data, 
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candidates, 
memory_size, 
evaluation interval, 
epochs, 


self.memory_size = memory_size 
self.batch_ size = batch_ size 
self.evaluation interval = 
self.epochs = epochs 
self.candidates = candidates 
self.candidates_to_idx = 
self.candidates_size = 
self.idx_ to_candidates = dict( 


candidates_to_idx, 
batch_size, 


learning_rate, 
hops, 


embedding_size): 


evaluation interval 


candidates_to_idx 
len(candidates) 


(self.candidates_ to_idx[key], key) 
for key in self.candidates_ to_idx) 


# 初始 化 数据 并 建立 词汇 表 








self.train data = train data 
self.test_data = test_data 
self.val_data = val_data 
self.builgd vocabl(train data + test_data + val_data, candidates) 
# 向 量化 候选 项 
self.candidates_vec = vectorize candidates!( 
candidates, self.word idx, self.candidate_sentence_size) 
# 初始 化 优化 器 
optimizer = tf.train.AdamOptimizer (learning rate=learning_ rate) 


# 初始 化 TensorFlow 会 话 和 记忆 网 络 模型 

self.sess = tf.Session() 

self.model = MemoryNetworK ( 
self.sentence_size, 
self.candidates_size, 
embedding_size, hops, 
optimizer=optimizer, 


e@ 为 词 说 入 查找 建立 词汇 表 


self.vocab_size, 


session=self.ses 





self.candidates_vec, 


s) 


我 们 希望 为 facts、candidates 和 questions 中 的 每 个 单词 创建 词 朋 和信 。 因 此， 需要 读 





取 数 据 和 候选 项 以 计算 要 创建 词 企 和 的 单词 数 以 及 最 大 的 句子 长 度 。 此 信息 将 被 传递 到 内 存 网 络 


模型 以 初始 化 族人 和 矩阵 和 输入 占 位 符 : 


def puildq_vocab (self，qaata，candidqates) : 
# 从 所 有 数据 和 候选 词 中 建立 单词 词汇 表 
vocab = reduce(lambda xl1, x2: X1L | x2, 
(set (list (chain.from iterable(facts)) 
for facts, questions, answers in data)) 
vocab |= reduce(lambda x1, x2: xl1 | x2, 
(set (candidate) for candidate in candidates)) 
vocab = sorted(vocab) 
# 为 每 个 单词 分 配 整 数 索引 
self.worgd_ idx = dict( (word, 
enumerate (vocab)) 
# 计算 有 多 少 个 不 同 数 据 大 小 
max_facts_size = max(map (len, 
self.sentence_ size = 


+ Questions 


idx + 1) for idx, word in 


(facts for facts, 


a 


max( 


) 


_ in data))) 
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map(len, chain.from iterable(facts for facts, _, _ in data))) 
self.candidate_sentence_size = max(map(len, candidates)) 
Guestion size = max(map(len, (questions for _, questions, _ in 
data))) 


self.memory_size = min(self.memory_size, max_facts_ size) 
self.vocab_size = len(self.word_ idx) + 1 # +1 for null word 
self.sentence size = max(question size, self.sentence size) 


@ 训练 聊天 机 器 人 模型 


我 们 可 以 将 向 量化 的 训练 数据 ( 由 在 上 一 节 中 定义 的 向 量化 方法 所 得 到 ) 传 递 给 聊天 机 器 人 ， 
并 调用 记忆 网 络 的 fit 方法 来 训练 小 批 次 训练 数据 ， 同 时 以 固定 的 间 隅 在 验证 集 上 评估 模型 的 


性 能 : 


def 


def 


predict_for batch(self, facts, questions): 

preds = [|] 

# 在 小 批 次 上 人 迭代 

for start in range(0, len(facts), self.batch size) : 
engd = start + self.batch size 
facts_batch = facts[start:end] 
questions_batch = questions[start:end] 
# 对 每 个 批 次 进行 预测 
pred = self.model.predict (facts_batch, questions_batch) 
preds += list (pred) 

return preds 


train(self): 
# 向 量化 训练 数据 和 验证 数据 
train_facts, train questions, train answers = vectorize datal 
self.train data, self.word_ idx, self.sentence size, 
self.batch size, self.memory_size) 
val_facts, val_questions, val_answers = vectorize_ datal 
self.val_data, self.word idx, self.sentence_ size, 
self.batch_ size, self.memory_size) 
# 将 训练 数据 分 批 
batches = zip(range(0, len(train facts) - self.batch size, 
self.batch_ size), 
range (self.batch size, len(train facts), 
self.batch_ size)) 
batches = [(start, end) for start, end in batches] 
# 开始 训练 循环 
for epoch in range(l1l, self.epochs + 1): 
np.random.shuffle (batches) 
total_cost = 0.0 
for start, end in batches: 
facts = train facts[start:end] 
questions = train questions[start:end] 
answers = train answers[start:endl] 
# 在 批 数 据 上 开展 训练 
batch cost = self.model.fit (facts, questions, answers) 
total_cost += batch_ cost 
if epoch % self.evaluation interval == 0: 
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# 在 训练 集 和 验证 集 上 计算 准确 率 

train preds = Self.predqict_for_patch( 
train_ facts, train questions) 

val_preds = self.predict_ for batchl( 
val_facts, val_questions) 

train_acc = metrics.accuracy_scorel( 








train preds, train answers) 
val_acc = metrics.accuracy_score( 
val_preds, val_answers) 
print ("Epoch: ", epoch) 
print ("Total Cost: ", total_ cost) 
print ("Training Accuracy: ", train acc) 
print ("Validation Accuracy: ", val_acc) 
DEint (= = ) 


@ 在 测试 集 上 评估 聊天 机 器 人 
然后 ， 我 们 可 以 编写 一 个 方法 来 预测 测试 数据 集中 每 个 对 话 的 响应 并 获得 准确 率 得 分 : 


def test (self): 

# 在 测试 集 上 计算 准确 率 

test_facts, test_questions, test_answers = vectorize_datal 
self.test_ data, self.worgd idx, self.sentence_ size, 
self.batch_ size, self.memory_size) 

test_preds = self.predict_ for batch(test_facts, test_questions) 

test_acc = metrics.accuracy_score(test_ preds, test_answers) 

print ("Testing Accuracy: ", test_acc) 

















@ 与 聊天 机 器 人 交互 


最 后 ,我们 可 以 按照 前 面 各 节 中 所 描述 的 框架 与 聊天 机 器 人 进行 交互 。 在 每 个 用 户 发 声 之 后 ， 
我 们 要 求 记忆 网 络 根据 历史 会 话 记录 和 用 户 发 声 来 预测 响应 , 随后 将 发 声 和 响应 添加 到 历史 会 话 
记录 中 ， 之 后 用 户 可 以 再 次 发 声 : 


def interactive _ mode (self): 
faets’ 三 于] 
utterance = None 
response = None 











tun Out = 
while True: 
line = input ("==&gt; ") .strip() .lower!() 
1if 1ine ss "exit t: 
break 
TF ,Lie Sa "EeStart" 
taGtes” = EK] 
tn cou SL 
print ("Restarting dialog...\n") 
continue 
utterance = tokenize (line) 
data = [(facts, utterance, -1)] 


# 将 数据 向 量化 并 做 出 预测 


f, q, a = vectorize datal(data, self.word_ idx, 


144 第 9 章 使 用 记忆 网 络 完 成 问答 任务 和 编写 聊天 机 器 人 





self.sentence_size, self.batch size, self.memory_size) 


preds = self.model.predict (f, 9g) 
response = self.idx to_ candidates [preds[0]] 
# 打印 预测 响应 

print (response) 

response = tokenize(response) 

# 加 入 话 轮 计数 时 序 编码 
utterance.append ("S$u") 
response.append ("sr") 

# 加 入 发 声 / 响 应 编码 

utterance.append("#" + str(turn count)) 
response.append("#" + str(turn count)) 
# 更 新 事实 存储 

facts.append (utterance) 

facts.append (response) 

GE 


e 整合 起 来 


为 了 运行 刚刚 编写 的 代码 ， 我 们 将 定义 模型 的 超 参数 并 实例 化 chatpot 模 




















型 。 随 后 ,我们 


将 开始 对 模型 进行 200 个 周期 的 训练 并 每 隔 10 个 周期 在 验证 集 上 评估 其 性 能 。 经 过 训练 后 ,我 


们 可 以 在 测试 数据 上 对 模型 进行 测试 ， 代 码 如 下 所 示 : 


chatbot = ChatBotWrapper (train data, test_ data, val_ data, 
candidates, candidates_to_idx, 
memory_size=50, 
batch_ size=32, 
learning_ rate=0.001, 
evaluation interval=10, 
hops=3, 
epochs=100, 
embedding_size=50) 

chatbot .train() 

chatbot .test() 


以 下 是 输出 : 


Epoch: 10 

Total Cost: 17703.9733608 

Training Accuracy: 0.756870229008 
Validation Accuracy: 0.729912770223 
Epoch: 20 

Total Cost: 7439.67566451 

Training Accuracy: 0.903217011996 
Validation Accuracy: 0.857127377147 
Epoch: 30 

Total Cost: 3179.78263753 

Training Accuracy: 0.982769901854 
Validation Accuracy: 0.939372595763 
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Epoch: 80 

Total Cost: 1949.99280906 

Training Accuracy: 0.980861504907 
Validation Accuracy: 0.937747196186 
Epoch: 90 

Total Cost: 500.894205613 

Training Accuracy: 0.995637949836 
Validation Accuracy: 0.95400119196 
Epoch: 100 

Total Cost: 912.067172846 

Training Accuracy: 0.995092693566 
Validation Accuracy: 0.954813891748 


Testing Accuracy: 0.958093271008 


在 训练 chatbot 时 ， 可 以 根据 其 在 验证 数据 上 的 表现 评估 其 性 能 。 应 该 可 以 看 到 ， 它 的 损 
失 在 不 断 减少 且 准 确 率 有 所 提高 。 尽 管 采 用 更 严格 的 正则 化 方案 ( 例如 梯度 裁剪 、L2 范 数 正则 
化 或 随机 失 活 ) 会 得 到 更 好 的 结果 , 但 在 训练 结束 时 , 我 们 仍 可 以 得 到 一 个 在 测试 集 上 具有 良好 
表现 的 模型 。 使 用 TensorFlow 添加 这 些 正则 方案 相当 简单 ， 你 可 以 自行 练习 。 


@ 交互 对 话 示 例 
我 们 也 可 以 在 交互 模式 下 运行 训练 好 的 聊天 机 器 人 以 进行 实时 对 话 : 


chatbot.interactive mode() 


每 当 出 现 ==&ggt ;符号 提示 时 ， 都 可 以 键入 文本 来 与 聊天 机 器 人 进行 交互 : 


==&gt; good morning 

hello what can i help you with today 
==&gt; i'd like to book a table for eight 
i'm on it 

==&gt; 

any preference on a type of cuisine 
==&gt; with italian cuisine 

where should it be 

==&gt; in bombay 

which price range are looking for 

==&gt; i am looking for a moderate restaurant 
ok let me look into some options for You 
==&gt; 

api call italian bombay eight moderate 
==&gt; instead could it be in a cheap price range 
sure is there anything else to update 
==&gt; actually i would prefer in london 
sure is there anything else to update 
EG 

ok let me look into some options for you 
==&gt; 
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api call italian london eight cheap 
==&gt; 





当 我 们 尝试 各 种 类 型 的 交互 时 , 可 以 看 到 这 个 简单 的 记忆 网 络 已 经 学 会 了 对 大 多 数 问题 做 出 
适当 的 回答 , 但 是 在 处 理 专 有 名 词 或 命名 实体 ( 例如 和 餐馆、 存储 在 知识 库 中 的 相关 事实 ) 时 可 能 
会 稍 显 笨拙 。 与 这 样 的 实体 打交道 本 身 也 可 以 被 认为 是 一 条 研究 线 ， 而 且 需 要 结合 NLP 研究 的 
许多 子 领 域 来 构建 用 于 实际 部 署 的 聊天 机 器 人 。 





























9.3.3 ”记忆 网 络 相 关 文 献 


对 于 求知 欲 较 强 的 读者 , 我 们 提供 了 一 份 论文 列表 , 这 些 论文 介绍 了 与 记忆 网 络 相关 或 受 其 
局 发 的 新 思想 和 新 架构 ， 如 表 9-2 所 示 。 











































































































表 9-2 
标 题 描 述 

“Dynamic Memory Networks (DMNs) and DMN 是 由 Salesforce Research 推出 的 (与 Facebook 的 记忆 网 络 几乎 同时 )， 

Dynamic Coattention Networks (DCNS)” 它 使 用 更 为 复杂 的 RNN 来 进行 构建 表示 和 和 迭代 情境 记忆 。DCN 是 
Salesforce 对 基于 attention 的 推理 模型 的 最 新 迭代 ， 具 有 全 新 的 coattention 
机 制 

“Neural Turing Machines (NTMs) and DeepMind 的 NTM 和 DNC 设 定 了 更 为 积极 的 目标 : 使 神经 网 络 可 以 读 取 

Differentiable Neural Computer (DNC)” 和 写 入 外 部 存储 并 执行 计算 机 可 以 执行 的 任何 算法 

“Seq2seq Memory Network” Microsoft Research 引入 了 用 于 生成 对 话 框 的 seq2seq 模型 ， 并 为 其 增加 了 
与 记忆 网 络 非常 相似 的 记忆 模块 

“Recurrent Entity Networks” Facebook 基于 attention 模型 的 最 新 迭代 ， 与 内 存 网 络 相 反 ， 它 可 以 即时 建 
立 内 存 并 对 其 进行 推理 























9.4 小 结 





本 章 ， 我们 快速 介绍 了 QA 来 了 解 自然 语言 理解 问题 ， 并 学 习 了 如 何 为 任何 QA 任务 构建 通 
用 的 记忆 网 络 模 型 。 然 后 , 我 们 研究 了 将 会 话 建 模 作为 QA 任务 的 问题 ， 并 扩展 了 记忆 网 络 以 训 
练 面向 目标 的 聊天 机 器 人 。 


我 们 构建 了 一 个 基于 检索 的 简单 聊天 机 器 人 以 帮助 用 户 根据 喜好 来 预订 和 餐厅。 你 可 以 进一步 
探索 可 能 在 某 些 方面 更 为 复杂 的 attention 机制， 更 强大 的 句子 表示 编码 器 ,以 及 使 用 生成 模型 代 


在 下 一 章 中 ， 我 们 将 介绍 使 用 编码 器 -解码 器 模型 进行 语言 翻译 ， 并 介绍 更 为 复杂 的 、 用 于 
序列 比 对 的 attention 机制。 


























使 用 基于 attention 的 模型 
进行 机 器 翻译 








机 器 翻译 系统 将 文本 从 一 种 语言 转换 为 另 一 种 语言 ， 一 个 这 样 的 系统 就 是 Google Translate 





服务 。 本 章 将 研究 这 些 系统 的 架构 及 构建 方法 。 


(a 
上 




















然 本 章 的 重点 在 神经 机 器 翻译 上 , 但 还 是 将 简 


要 介绍 用 于 应 对 机 天 翻译 挑战 的 传统 方法 。 我 们 主要 关注 以 下 主题 : 


D 机 器 翻译 概述 
口 神经 机 器 翻译 概述 











10.1 机 器 翻译 概述 


口 基于 attention 机 制 开发 并 训练 一 个 神经 机 噩 翻 译 模 型 





目前 有 多 种 类 型 的 机 器 翻译 方法 被 广泛 使 用 ， 但 为 简洁 起 见 ， 我 们 将 只 研究 两 种 主要 方法 : 
一 是 统计 机 器 翻译 ( statistical machine translation ，SMT )， 二 是 神经 机 器 翻译 ( neural machine 
translation，NMT )， 后 者 也 是 本 章 的 主题 。 我 们 将 简要 介绍 以 上 两 种 方法 。 



































10.1.1 统计 机 器 翻译 




















统计 机 器 翻译 (SMT ) 将 翻译 模型 与 目标 语言 模型 相 结合 , 将 句子 从 源 文本 使 用 的 语言 转换 
为 目标 语言 ， 图 10-1 对 此 进行 了 说 明 。 翻 译 模型 将 单词 和 短语 从 源 语言 映射 到 目标 语言 ， 而 语 






































言 模型 则 捕获 有 关 单 词 在 目标 语言 中 遵循 特定 顺序 可 能 性 的 统计 信息 。 因 此 ，SMT 试图 最 大 化 
选 定 目标 语句 ( 即 源 句子 对 应 翻译 ) 的 可 能 性 。 这 些 统计 模型 来 自 于 大 量 源 语 言 到 目标 语言 的 翻 











译 语料库 : 






































在 SMT 之 前 , 机 带 翻 译 要 靠 专家 定义 语言 和 句法 规则 以 使 翻译 工作 顺利 进行 。SMT 是 自动 
机 器 翻译 的 一 大 进步 ， 其 规则 是 从 大 量 双语 数据 中 统计 得 出 的 。 但 SMT 的 主要 困难 之 一 在 于 ， 


























它 只 在 翻译 类 似 于 训练 语料库 或 对 应 领域 的 文本 时 才能 表现 良好 , 而 对 于 来 自 不 同 领域 的 新 输入 
文本 ，SMT 可 能 无 法 很 好 地 翻译 。SMT 的 男 一 个 缺点 是 需要 大 量 的 双语 训练 数据 ， 而 稀有 的 语 
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言 对 可 能 很 难 获取 。 同 时 ，SMT 针对 每 种 源 语言 到 目标 语言 的 翻译 都 需要 独立 、 专 门 的 管道 。 


源 文 本 目标 文本 
(如 英语 ) (如 法 语 ) 












翻译 模型 




















使 用 NLTK SMT 模型 实现 英语 到 法 语 的 翻译 

现在 ， 我 们 将 研究 一 个 使 用 NLTK 进行 统计 机 器 翻译 的 示例 。 我 们 使 用 TED 演讲 的 翻译 作 
为 训练 数据 集 和 测试 数据 集 (这些 数 据 包含 一 些 由 法 语 译 成 英语 的 TED 演讲 )。 本 书 代码 库 的 
Chapter10 目录 下 提供 了 本 例 的 完整 代码 和 数据 。 我 们 将 使 用 IBM 词法 对 齐 模型 (一 种 简单 的 统 
计 转 换 模型 ) 来 获取 源 语言 和 目标 语言 之 间 的 对 齐 对 的 集合 ,并 计算 其 关联 或 对 齐 的 概率 。 我 们 
还 将 使 用 基本 的 IJBM Model 1， 它 会 对 源 语 句 和 目标 语句 进行 一 对 一 的 对 齐 。 因 此 ， 该 模型 能 ; 
每 个 源 单词 精确 地 生成 一 个 目标 单词 ， 而 无 须 考虑 将 源 单词 重新 排序 或 翻译 多 词 少 词 的 情况 。 


nltk.translate 包 提 供 了 IBM 对 齐 模型 的 实现 。 我 们 首先 将 其 导入 并 定义 一 个 函数 以 读 
取 英 语 和 相应 的 法 语 翻译 数据 : 

from nltk.translate.ibml import IBMModell 

from nltk.translate.api import AlignedSent 


import dill as pickle 
import randomdef 















































read_sents (filename): 
sents = [] 
GE 
with open(filename,'r') as fi: 
ey 和 人 全 
sents.append (li.split()) 
return sents 


AlignedSent 类 将 在 训练 期 间 提 供 法 语 - 英 语 对 齐 数据 。read_sents() 从 输入 文件 中 读 取 
每 一 行 ， 并 将 其 转换 为 每 个 句子 的 词 元 列表 。 现 在 ， 我 们 将 创建 对 齐 化 数据 并 训练 模型 ; 
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max_count=5000 
eng_sents_all = read sents('data/train en lines.txt') 
fr_sents_all = read sents('data/train fr lines.txt') 


eng_sents = eng_sents_all[:max_count] 

fr_sents = fr_sents_all[:max_ count] 

print ("Size of english sentences: ", lenl(eng_sents)) 
print ("Size of french sentences: ", lenl(fr_sents)) 


aligneqd_ text = [] 

for i in range(lenl(eng_ sents)): 
al_sent = AlignedSent (fr_sents[i],eng_sents[i]) 
aligned_ text.append(al_sent) 

print ("Training smt model") 

ibm model = IBMModell (aligneqd text,5) 

print ("Training complete") 


我 们 使 用 大 约 5000 个 句子 (max_count ) 作为 训练 数据 以 加 快 收敛 速度 ,但 你 也 可 以 对 该 
值 进行 修改 以 在 完整 数据 上 进行 训练 。 然 后 ， 使 用 Alignedsent 创建 法 语 - 英 语句 子 对 的 列表 
来 进行 模型 训练 。 在 训练 后 ， 我 们 将 研究 模型 在 翻译 任务 中 的 表现 : 


n_random = random.randint (0,max_count) 











fr_sent = fr_sents_alll[ln_randoml] 
eng_sent_actual_tr = eng_sents_allln random] 
tr_sent = [] 


for w in fr sent: 
probs = ibm model.translation table[w] 
if(len (probs)==0): 
continue 
sorteqd words = sorted([(k,v) for k, Vv in probs.items()],key=lambda x: 
x[1], reverse=True) 
top_word = sorted words[1][0] 
if top_word is not None: 
tr_sent.append (top_word) 


print ("French sentence: ", " ".join(fr_sent)) 
print ("Translated Eng sentence: ", " ".join(tr_sent)) 
print ("Original translation: ", " ".join(eng_sent _ actual_ tr)) 





可 以 从 法 语句 子 列表 中 随机 选择 一 个 句子 ， 然 后 使 用 translation_table 表 查 找 相应 的 
英语 单词 。 该 表 存 储 了 给 定 的 法 语 单词 和 相应 的 英语 单词 之 间 对 齐 的 可 能 性 。 我 们 将 使 用 这 些 对 
齐 概率 来 选择 英语 单词 , 其 中 对 齐 概 率 最 高 的 单词 更 有 可 能 是 给 定 法 语 单词 的 翻译 。 我 们 将 对 原 
始 句子 中 的 所 有 法 语 单词 进行 查找 ， 以 在 tr_sent 中 获得 相应 的 英语 短语 。 最 后 ， 打 印 法 语句 
子 、SMT 翻译 的 句子 以 及 正确 的 翻译 : 

French sentence: On appelle ¢a l'accessibilité financieére. 


Translated Eng sentence: suggests affordability. works. called called 
Original translation: And it's called affordability. 


可 以 看 到 ，SMT 可 以 正确 翻译 某 些 单词 ( 例如 affordability ), 但 与 原始 句子 相 比 ， 翻 译 并 无 
实际 意义 。 这 一 点 可 以 通过 在 整个 数据 集 上 训练 并 增加 迭代 次 数 来 改善 。 但 是 应 该 注意 到 ， 此 处 
我 们 使 用 了 一 个 不 考虑 目标 语言 中 单词 顺序 的 简单 模型 。 更 复杂 的 IBM 模 型 (模型 序号 分 别 为 3、 
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4 和 5 ) 可 以 捕获 单词 顺序 和 扩张 能 力 ( 源 语言 单词 并 不 总 与 目标 语言 单词 具有 一 对 一 映射 ), IBM 
模型 5 使 用 隐 马 尔 可 夫 模 型 ( Hidden Markov Model，HMM ) 和 对 齐 以 提供 更 好 的 翻译 。 


10.1.2 ”神经 机 器 翻译 


神经 机 器 翻译 (NMT ) 使 用 神经 网 络 来 学 习 将 文本 从 源 语言 翻译 成 目标 语言 。 与 SMT 不 同 ， 
NMT 的 一 个 主要 优点 是 只 需要 一 种 模型 就 可 以 端 到 端 地 实现 语言 转换 。 更 重要 的 是 , NMT 适用 
于 源 文本 的 整个 片段 , 而 非 SMT 中 的 文本 抉 或 短语 。 这 一 点 是 通过 词 艇 入 学 习 上 下 文 来 实现 的 。 
此 , NMT 会 在 保留 原始 文本 上 下 文 的 同时 执行 翻译 。 现 在 , 我 们 将 介绍 NMT 使 用 的 一 些 常 见 
的 深度 学 习 架 构 。 






































1. 编码 器 -解码 器 网 络 








最 常见 的 架构 类 型 是 编码 器 -解码 器 网 络 ， 与 我 们 在 第 8 章 中 使 用 的 相似 。 实 际 上 ， 这 两 种 
模型 架构 并 没有 太 大 不 同 。 该 架构 首先 将 源 文 本 短语 输入 到 编码 器 中 , 编码 需 会 将 其 转换 为 代表 
短语 含义 的 了 hought vector, 然后 将 这 种 密集 表示 形式 连同 训练 期 间 的 目标 语言 原始 翻译 一 同 馈 入 
解码 右 以 充当 解码 右 的 预 处 理 ， 而 解码 絮 会 根据 训练 时 提供 的 原始 翻译 学 习 相 应 的 翻译 。 






































如 Luong 等 人 在 论文 “Effective Approaches to Attention-Based Neural Machine Translation” 中 
所 述 ， 编 码 絮 -解码 器 网 络 如 图 10-2 所 示 。 图 中 的 翻译 是 从 源 语言 文本 ( 英语 ) 到 目标 语言 文本 
(法 语 ) 的 转换 。 
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图 10-2 
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由 于 输入 和 输出 的 顺序 性 质 ， 编 码 器 和 解码 器 的 常见 选择 都 是 RNN。 我 们 通常 使 用 LSTM 
或 GRU 来 捕获 源 文本 和 目标 文本 中 的 长 期 关联 ,编码 器 RNN 逐 字 读 取 源 语言 短语 并 生成 最 终 状 
态 。 此 最 终 状态 以 压缩 向 量 表示 的 形式 封装 了 短语 的 含义 。 该 向 量 表示 形式 会 被 作为 解码 器 的 初 
始 状 态 与 目标 短语 一 起 馈 入 解码 器 ， 解 码 器 则 将 如 此 学 习 翻 译 。 


在 推理 期 间 , 编码 絮 使 用 从 源 语言 短语 获得 的 解码 器 最 终 状态 压缩 表示 , 以 目标 语言 逐 词 输 
出 短语 。 在 图 10-2 中 ， 髋 入 层 将 单词 转换 为 密集 表示 ， 然 后 由 解码 如 转换 为 目标 词汇 表 中 所 有 
单词 的 投影 ， 并 根据 softmax 概率 从 投影 中 选择 最 终 用 于 翻译 的 单词 。 

2. 使 用 attention 的 编码 器 -解码 器 架构 

上 面 描述 的 编码 需 - 解 码 器 架构 有 一 个 主要 缺点 : 最 终 的 编码 器 状态 为 固定 长 度 ， 因 此 可 能 
导致 信息 丢失 。 虽 然 这 对 于 较 短 的 语句 来 说 可 能 不 是 问题 , 但 对 于 较 长 的 源 语言 输入 ， 编 码 器 可 
能 无 法 捕获 长 期 依存 关系 ， 从 而 导致 解码 器 无 法 输出 良好 的 翻译 。 为 了 克服 这 个 问题 ，Bahdanau 
等 人 在 论文 “Neural Machine Translation by Jointly Learning to Align and Translate” 中 引入 了 
attention 机 制 。 图 10-3 是 从 其 论文 中 摘录 的 架构 图 示 。 
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图 10-3 
attention 机 制 的 主要 思想 是 在 学 习 翻 译 时 集中 注意 力 于 输入 源 文本 的 重要 部 分 。 实 际 上 ， 
attention 机 制 通过 在 训练 过 程 中 获得 的 权重 ， 在 输入 源 文本 和 目标 文本 之 间 建 立 快捷 连接 。 这 些 
连接 增强 了 解码 器 翻译 较 长 输入 短语 的 能 力 ， 从 而 使 翻译 更 为 准确 。 
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3. 使 用 attention 进行 从 法 语 到 英语 的 神经 机 器 翻译 














这 里 将 使 用 与 SMT 中 相同 的 数据 集 ， 并 将 基于 attention 机 制 来 构建 网 络 。 你 还 将 发 现 该 网 
络 类 似 于 第 8 章 中 所 描述 的 架构 。 该 示例 的 完整 Jupyter Notebook 可 在 本 书 代码 库 中 找到 











( Chapter10/02 example.ipynb )。 


@ 数据 准备 

首先 ,分 别 读 入 法 语源 文本 和 英语 目标 文本 : 
frdata=[] 

endata=[] 


with open('data/train_ fr lines.txt') as frfile: 
OT “Ln ErEile: 
frdata.append (1i) 
with open('data/train en lines.txt') as enfile: 
fOr 1 “i ‘hfi Te 
endata.appengd (1i) 
mtdata- “= ed dt en the i 
mtdata['FR_len'] = mtdata[l'FR'] .apply (lambda x: len(x.split(' '))) 
mtdatal[l'EN_len'] = mtdatal' '] .apply (lambda x: len(x.split(' '))) 
print (mtdata[l'FR'] .head(2). Si 
print (mtdata[l'EN'] .head(2) .values) 


Output: 


['Voici Bill Lange. Je suis Dave Gallo.\n' 

'Nous allons vous raconter quelques histoires de la mer en vidéo.\n'] 
["This is Bill Lange. I'm Dave Gallo.\n" 

"And we're going to tell you some stories from the sea here in video.\n"] 








因为 我 们 将 使 用 预 训练 好 的 舱 入 向 量 , 所 以 将 其 载 人 以 创建 一 个 由 单词 到 嵌入 的 字典 。 我 们 


将 使 用 该 字典 来 准备 用 于 训练 的 输入 文本 数据 : 


def bui1dq_ word vector matrix(vector_file): 
embedding_ index = {} 
with codecs.open(vector_file, 'r', 'utf-8') as f: 
for i, line in enumerate(f): 
sr = line.split() 
word = sr[0] 
embedding = np.asarray (sr[1:], dtype='float32') 
embedding_index[word] = embedding 
return embedding_ingdex 
embeddings_index = build word vector matrix('glove.6B.50d.txt') 




















由 于 编码 器 和 解码 器 的 输入 是 单词 标识 符 , 我 们 将 同时 创建 单词 到 ID 和 ID 到 单词 的 映射 以 
在 训练 和 推理 中 使 用 。 在 训练 期 间 使 用 单词 到 ID 的 映射 , 而 ID 到 单词 的 映射 将 用 于 在 推理 过 程 























中 得 到 翻译 文本 : 
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def build word2iqd mapping (word counts_dict): 
word2int = {} 
count_threshold = 20 
value = 0 
for word, count in word_ counts_dict.items(): 
if count &gt;= count_threshold or word in embeddings_index: 
word2int [word] = value 
value += 1 
special_codes = [TOKEN_UNK,TOKEN_PAD,TOKEN_EOS,TOKEN_GO] 
for code in special codes: 
word2int [code] = len (word2int) 
int2word = {} 
for word, value in word2int.items(): 
int2word[value] = word 
return word2int,int2word 


这 会 将 输入 单词 和 特殊 标记 TOKEN_UNK、TOKEN_PAD、TOKEN_EOS 和 TOKEN_Go 转换 为 相 
应 的 数字 标识 符 。 这 些 特殊 标记 分 别 被 定义 为 字符 串 UNK、PAD、EOS 和 Go。 我 们 将 同时 对 于 英 
法 文本 应 用 build_word2id_mapping() 和 了 build_embeddings () 函数 。 请 注意 , 仅 使 用 出 现 
频率 大 于 count_threshold (在 先前 中 设置 为 20 ) 的 单词 ; 

fr_word2int,fr_int2word = build word2iqd mapping(wordq_counts_adqict_fr) 

en word2int,en_int2word = build word2iqd_mapping (word_counts_dict_en) 


fr_embeddings_matrix = build _ embeddings (fr_word2int) 
en_embeddings_matrix = build _ embeddings (en_ word2int) 























print ("Length of french word embeddings: ", len(fr_embeddings matrix)) 
print ("Length of english word embeddings: ", lenl(en _ embeddings_ matrix)) 
Output: 


Length of french word embeddings: 19708 
Length of english word embeddings: 39614 


接 下 来 定义 函数 以 将 源 短语 和 目标 短语 转换 为 数字 标识 符 : 


def convert_sentence to_ids(text, word2int, eos=False): 
wordints = [] 
word_count = 0 
for sentence in text: 
sentence2ints = [] 
for word in sentence.split(): 
word_count += 1 
if word in word2int: 
sentence2ints.append (word2int [word]) 
else: 
sentence2ints.append (word2int [TOKEN_UNK]) 





if eos: 
sentence2ints.append (word2int [TOKEN_EOS]) 
wordints.append (sentence2ints) 
return wordints, word_ count 


正如 先前 所 做 的 那样 , 我 们 对 源 文 本 和 输入 文本 应 用 convert_sentence_to_ids() 函数 : 
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iqd_fr, word_ count_fr = convert_sentence to_ ids(mtdata_fr, fr word2int) 
id_en, word_ count_en = convert_sentence to_ids(mtdata_ en, en word2int 
eos=True) 


因为 句子 /短语 中 含有 许多 对 训练 无 益 的 未 知 单词 和 词 元 ， 所 以 我 们 将 其 从 集合 中 移 除 : 


en_filtered = [] 
fr_filtered = [] 
max_en_ length = int (mtdata.EN_len.max()) 
max_fr_length = int (mtdata.FR_ len.max()) 
min_ length = 4 
unknown_ token en limit 10 
unknown_ token fr_ limit 10 
for count,text in enumerate(id_ en): 

unknown_token en = unknown tokens (id_en[count],en word2int) 

unknown_ token_fr = unknown tokens (id_fr[count],fr word2int) 

en_len = len(id en[lcount]) 

fr_len = len(id fr[count]) 

if( (unknown_ token_ eng&gt;unknown token en limit) or 
(unknown_ token fr&gt;unknown token fr_ limit) or 

(en_leng&lt;min length) or (fr_leng&lt;min length) ) : 
continue 

fr_filtered.append(id_fr[count]) 

en_filtered.append(id_en[count]) 
print ("Length of filtered french/english sentences: ", lenl(fr_ filtered), 
len(en_filtered) ) 





Output: 
Length of filtered french/english sentences: 200404 200404 


注意 ,我 们 移 除了 包含 超过 unknown_token_en_ limit 或 unknown token fr _1imit( 在 
代码 中 均 设 置 为 10 ) 个 未 知 词 元 的 句子 。 同 样 ， 还 将 长 度 小 于 4 个 单词 的 句子 移 除了 。 


e 编码 器 网 络 


现在 ， 我 们 将 对 概述 部 分 描述 的 原始 架构 稍 加 修改 来 构建 编码 器 网 络 。 使 用 双向 RNN 代替 
单 向 RNN 从 而 捕获 输入 中 的 前 向 和 后 向 依赖 关系 : 


def get_rnn cell(rnn cell_ size,dropout_prob): 
rnn_c = GRUCell (rnn cell_ size) 
rnn_c = DropoutWrapper (nn _c, input_ keep_prob = dropout_prob) 
return rnn_c 


























def encoding_ layer(rnn cell_ size, sequence_ len, n_ layers, rnn_ inputs, 
dropout DroB): 
for 1 in range(n_ layers): 
with tf.variable_ scope('encoding 1 _{}'.format(1)): 
rnn_fw = get_rnn celll(rnn cell_size,dropout_prob) 
rnn_ bw = get_rnn celll(rnn cell_size,dropout_prob) 
encoding_output, encoding_ state = 
tf.nn.bidirectional_ dynamic rnn(rnn_ fw, rnn bw, rnn_inputs, 
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sequence_len,dtype=tf.float32) 
encoding_output = tf.concat (encoding_output,2) 
return encoding_output, encoding_ state 


我 们 使 用 GRU 作为 RNN 的 循环 单元 ， 并 将 输入 语句 的 般 入 馈送 到 编码 器 rnn_inputs。 
encoding_layer 国 数 的 其 他 参数 有 单元 大 小 、 序 列 长 度 和 dropout 概率 。 稍 后 我 们 将 序列 长 度 
设置 为 法 语文 本 的 最 大 长 度 。 


请 注意 ， 我 们 已 将 前 向 RNN 和 后 向 RNN 的 编码 输出 级 联 在 了 一 起 ， 还 使 用 了 
DropoutWrapper 来 将 dropout 合并 到 编码 层 中 。 


e 解码 器 网 络 


解码 需 网 络 也 由 GRU 单元 创建 。decoding_layer 函数 将 编码 器 的 输出 和 英语 文本 的 词 内 
入 作为 输入 ， 输 出 投影 向 量 的 大 小 等 于 英语 文本 的 词汇 量 : 


def dqecodqing_ layer (decoding_embed_inp, embeddings, encoding_op, 
encoding_st, Vv_size, fr_len, en_len,max_en_ len, rnn cell size, 
word2int, dropout_prob, batch size, n_layers): 
for 1 in range(n_ layers): 
with tf.variable_ scope('dec rnn layer_{}'.format (1)): 

gru = tf.contrib.rnn.GRUCell (rnn_len) 

decoding_cell = 
tf.contrib.rnn.DropoutWrapper (gru,input_keep_prob = dropout_prob) 





out_]1 = Dense(v_size, kernel initializer = 
tf.truncated normal_initializer(mean = 0.0, 
stddev=0.1)) 


attention = BahdanauAttention(rnn cell_size, encoding_ op,fr_len, 
normalize=False, 
name='BahdanauAttention') 
decoding_cell = AttentionWrapper (decoding_ cell,attention,rnn_ len) 
attention zero_state = decoding cell.zero_state(batch size , tf.float32 
} 
attention_ zero_state = attention zero_state.clone(cell_state = 
encoding_st[0]) 
with tf.variable_scope("decoding layer"): 
logits_tr = training decoding_ layer (decoding embed_inp, en_len, 
decoding_cell, 
attention zero_state,out_l1,v_size, max_en_len) 
with tf.variable_ scope("decoding _ layer", reuse=True): 
logits_inf = inference decoding_layer (embeddings, 
word2int [TOKEN_GO] ,word2int [TOKEN_EOS], 
decoding_cell, attention zero_state, 
out_1,max_en_ len,batch_ size) 
return logits_ tr, logits_inf 


我 们 还 使 用 Dropoutwrapper 在 解码 器 中 添加 了 dropout。Dense 层 合并 了 投影 向 量 , 并 且 
BahdanauAttention 与 Attenti onWrapper 一 起 捕获 了 编码 器 输出 和 解码 需 之 间 的 attention 。 
请 注意 ， 我 们 还 使 用 不 同 的 解码 机 制 进行 了 训练 和 推理 : 
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def training decoding_ layer (decoding_ embed_input, en_len, decoding cell, 
initial_state, op_layer, 


helper = 


V_Size， 


max_en_len): 


TrainingHelper (inputs=decoding_ embed_input,sequence_ length=en_ len,time majo 


r=False) 


dec = BasicDecoder (decoding cell,helper, initial_ state,op_layer) 


logits, e 


re A es 


dynamic_ decode(dec,output time major=False,impute_ finished=True, 


maximum_ iterations=max_en_len) 


return logits 





训练 中 使 用 了 TensorFlow seq2seq 库 中 的 常规 TrainingHelper， 而 在 推理 





GreedyEmbeddingHelper: 


def inference decoding_ layer (embeddings, 


decoding_cell, 
initial_ state, 


inf_decoder = 


start_token, engd_ token, 


op_layer,max_en_len, 

start_tokens = tf.tile(tf.constant ([start_token], dtype=tf.int32, 
[batch_size],name='start_tokens') 

inf_helper = GreedyEmbeddingHelper (embeddings,start_ tokens,end token) 


batch_size): 


BasicDecoder (decoding_ cell,inf helper,initial_ state,op,layer) 


inf_logits, 二 


Rt) cs 


日 





dynamic_ decode (inf_decoder,output_time major=False,impute_ finished=True, 
maximum_ iterations=max_en_len) 


return inf_logits 





GreedyEmbeddingHelper 在 编码 器 的 输 出 投 


@ 序列 到 序列 模型 


现在 ， 我 们 要 将 编码 器 和 解码 器 相 


def sedq2sed_modqel (input_data, 


max_en_len, 


Vv_size, rnn_ cell size, 


结合 


局 
尿 / 


n_layers, 


向 量 中 选择 概率 最 大 的 单词 。 





以 创建 序列 到 序列 模型 : 


target_en_ data, dropout_prob, fr_len, en_len, 


word2int_en, batch size): 


input_word_ embeddings = tf.Variable(fr_embeddings_ matrix, 
name="input_word_embeddings") 
encoding_embed_input = tf.nn.embedding_ lookup (input_word_ embeddings, 


input_data) 


encoding_op, encoding_ st = encoding_layer(rnn cell size, fr_len, 
encoding_embed_input, 


dropout_prob) 


decoding_input = process_encoding_input (target_en data, 


batch_ size) 


decoding_embed_input = tf.nn.embedding_lookup (en_ embeddings_ matrix, 


decoding_input) 


n_layers, 


tr_logits, inf_logits = decoding_ layer (decoding_ embed_input, 


en_embeddings_matrix, 


return tr_logits, 


encoding_op,encoding_st, v_size, 


fr_len, 


rnn_cell_ size, 
dropout_prob, batch_ size,n_ layers) 


inf_logits 


en_len, max_en_len, 


word2int_en, 


word2int_en, 








中 则 使 用 了 
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segq2seq_model 困 数 结合 了 源 文 本 内 入 、 编 码 器 和 解码 器 ， 当 输入 法 语文 本 艇 入 fr_ 
embeddings_matrix 时 , 可 以 输出 logits。 编 码 器 层 和 解码 器 层 是 使 用 先前 定义 的 函数 创建 的 。 


@ 建立 图 
现在 我 们 将 结合 先前 所 创建 的 所 有 组 件 以 建立 完整 的 图 : 


train_ graph = tf.Graph() 
with train graph.as_default (): 
input_data, targets, learning_ rate, dropout_probs, 
en_len, max_en_ len, fr_len =model_inputs() 
logits_tr, logits_inf = segq2seq model (tf.reverse(input_ data, [-1]), 
targets, dropout_probs, 





























fr_len,en_ len,max_en_len, 
len(en word2int)+1,rnn_ len, n_layers, 
en_word2int,batch_ size) 
logits_tr = tf.identity(logits_ tr.rnn output, 'logits_tr') 
logits_inf = tf.identity(logits_ inf.sample_id, name='predictions') 
seq_ masks = tf.sequence mask(en len, max_en_len, dtype=tf.float32, 
name='masks') 
with tf.name_ scope ("optimizer"): 
tr_cost = sequence loss (logits tr,targets,seq masks) 
optimizer = tf.train.AdamOptimizer (learning_ rate) 
gradients = optimizer.compute_ gradients (tr_cost) 
capped_ gradients = [(tf.clip by_value(gradient, -5., 5.), var) for 
gradient, var in gradients 
if gradient is not None] 
train op = optimizer.apply_gradients (capped gradients) 
tf -summary. sealar(t"coeat”, tr eost} 
print ("Graph created.") 


首先 使 用 seq2seq_model 子 数 来 创建 带 有 attention 的 编码 器 -解码 器 网 络 , 并 使 用 TensorFlow 
seq2seq 库 中 的 sequence_loss 函数 及 其 输出 logits 值 来 计算 损失 ,我 们 还 在 损失 计算 中 屏蔽 了 
填充 。 最 终 ， 使 用 AdamOpt imizer 作为 损失 优化 器 。 


e@ 训练 


下 面 要 在 法 语句 子 及 其 相应 英语 翻译 上 对 网 络 展开 训练 。 在 此 之 前 , 我 们 将 研究 输出 训练 批 10 
次 的 函数 : 


def get_batches (en text, fr_ text，batch_ size) : 
for batch idx in range(0, len(fr_ text)//batch size) : 
start_idx = batch idx * batch size 
en batch = en text[start_idx:start_idx + batch sizel] 
fr batch = fr _ textl[start_idx:start_idx + batch sizej] 
pad_en batch = np.array (pad_sentences (en batch, en word2int)) 
pad_fr batch = np.array (pad_sentences (fr_batch, fr _ word2int)) 
pad_en _ lens = [] 
for en_b in pad_ en batch: 
pad_en_lens.append(lenl(en _b)) 
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pad_fr_lens = [] 
for fr_b in pad_ fr _ batch: 
pad_fr_lens.append (len(fr_b)) 
yield pad_en batch, pad_fr batch, pad_ en lens, pad_fr_lens 


get_batches 函数 将 返回 法 语 和 英语 句子 的 批 次 大 小 patch_size。 它 还 使 用 填充 词 元 对 
句子 进行 填充 ， 使 得 所 有 句子 的 长 度 都 与 批 中 的 最 大 长 度 相 等 。 现 在 我 们 来 看 一 下 训练 循环 : 


min learning_rate = 0.0006 
display_step = 20 
stop_early_count = 0 
stop_early_max_count = 3 
per_epoch = 3 

update_loss = 0 

batch_ loss = 0 
summary_update_loss = [] 
en_train = en_filteredq[0:30000] 
fr_train = fr_ filteredq[0:30000] 











Update_check = (len(fr train)//batch size//per_epoch)-1 
checkpoint = logs_path + 'best_so_far model .ckpt' 
with tf.Session(graph=train graph) as sess: 
tf_summary_writer = tf.summary.FileWriter(logs_path, graph=train_graph) 
merged_summary_op = tf.summary.merge_all() 
sess.run(tf.global_variables_initializer()) 
for epoch_ i in range(1, epochs+1): 
update_loss = 0 
batch_ loss = 0 
fOr babch. tt; 
enumeratel( 


en_batch, fr_batch, en_ text_len, fr text_len) in 





get_batches (en train, fr train, batch size)): 
before = time.time() 
_,loss,summary = sess.run([train_ op, 
tr_cost,merged_summary_op], 
{input_data: fr_pbatch, 
targets: en batch,learning rate: 1r, 
en_len: en text_len,fr_len: 
fr_text_len,dropout_probs: dr_prob}) 
batch_loss += loss 
update_loss += loss 
after = time.time!() 
batch time = after - before 
tf_summary_writer.add_ summary (summary, epoch i * batch size + 





batch_ i) 


人 


f batch i % display_step == 0 and batch i &gt; 0: 
print ('** Epoch {:&gt;3}/{} Batch {:&gt;4}/{} =- 
Batch Loss: {:&gt;6.3f}, seconds: 
{:&gt;4.2f}'.format (epoch i,epochs, batch i, 
len(fr_filtered) // batch size, batch_ loss / 





display_step, 
batch time*display_step)) 
batch_ loss = 0 
if batch i % update_ check == 0 and batch i &gt; 0: 
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print ("Average loss:", round(update_ loss/update_ check,3)) 
summary_update_loss.append (update_loss) 
if update_loss &lt;= min(summary_update_loss): 
print ('Saving model') 
stop_early_count = 0 
saver = tf.train.Saver() 
saver.save(sess, checkpoint) 
else: 
print ("No Improvement.") 
stop_early_count += 1 


if stop_early_count == stop_early_ max_count: 
break 
update_loss = 0 
if stop_early_count == Stop_early_max_count : 
print ("Stopping Training.") 


break 
Output 


** Epoch 5/20 Batch 440/3131 - Batch Loss: 1.038, seconds: 170.97 
** Epoch 5/20 Batch 460/3131 - Batch Loss: 1.154, seconds: 147.05 
Average loss: 1.139 

Saving model 


以 上 代码 的 主要 部 分 是 训练 循环 。 在 该 循环 中 , 我 们 获取 批 次 数据 并 将 其 馈送 到 网 络 ， 接 着 
跟踪 损失 并 在 损失 有 所 改善 的 情况 下 保存 模型 ,如 果 stop_early_max_count 的 损失 没有 改善 ， 
训练 过 程 将 终止 。 最 终 我 们 发 现 平均 损失 从 6.49 降低 至 了 1.139 左右 。 





注意 ,损失 值 每 次 运行 都 可 能 发 生变 化 。 请 参考 notebook 文件 以 获得 完整 输出 。 


@ 推理 
我 们 将 从 检查 点 文件 中 载 人 模型 ， 并 在 一 系列 示例 数据 上 测试 翻译 效果 : 


with tf.Session(graph=loaded graph) as sess: 
loader = tf.train.import_ meta graph (checkpoint + '.meta') 
loader.restore(sess, checkpoint) 
input_data = loaded graph.get_ tensor by _ name('input_data:0') 
logits = loaded graph.get_tensor by_name('predictions:0') 
fr_length = loaded graph.get_tensor_ by_name('fr_len:0') 
en_length = loaded graph.get_tensor_by_name('en len:0') 
dropout_prob = loaded graph.get_tensor_by_name('dropout_probs:0') 
result_logits = sess.run(logits, {input_data: [fr text]*batch size, 
en_length: [len(fr_ text)], 
fr_length: [len(fr_ text)]*batch size, 
dropout probr “1.03)10] 


出 











pad = en_word2int [TOKEN_PAD] 

print ('\nFrench Text') 

print(' Word Ids: {}'.format ([i for i in fr text])) 

print(' Input Words: {}'.format(" ".join( [fr_ int2word[i] for i in fr text 
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I ea) 
print ('\nEnglish Text') 


print(' Word Ids: {}'.format ([i for i in result_logits if i != pad])) 
print(' Response Words: {}'.format(" ".join( [en_ int2word[i]for i in 
result_logits if i!=pad] )) 

print(' Ground Truth: {}'.format(" ".join( [en_ int2word[i] for i in 


en_filtered[random]] ))) 


接着 我 们 将 导入 输入 和 输出 预测 张 量 以 在 测试 数据 上 完成 图 的 运行 。 以 下 是 模型 输出 的 部 分 














Uneesen. Test Data 


French Text 

Word Ids: [119, 67, 1003, 699, 11, 192, 13740] 

Input Words: C'est environ 100 millions de ces planétes. 
English Text 

Word Tidess: [PTL9 GT L004 2467 21 L193, “L78609 

Response Words: It's about 100 million of these planets. 
Ground Truth: It's about 100 million such planets. &lt;EOS&gt; 


French Text 

Werd. Tdss [1255>. 34.-21y L263 147;, T1591 009 于 了 1466,* 33887 -21 ~ 12253; 
Zl DZ T1673, 816:] 

Input Words: Qu'est-ce que les gens ont voulu donner au premier groupe, les 
20% les plus pauvres ? 

English Text 

Word Td8s:. [320. 5227 .227 ,> 1511;. /Br; -60367 97177 二 不 六 2075 -2010; 14 54433 "21; 
Ld; S433 39610] 

Response Words: What guys guys wanted to give at the first group, the 
poorest of the poorest &lt;UNK&gt; 

Ground Truth: What did people want to give to the first group, the bottom 
20 &lt;UNK&gt; &lt;EOS&gt;INFO:tensorflow:Restoring parameters from 
/tmp/models/best_so_far_model.ckpt 


French Text 

WOEQ! TOS [3 T4982 :972 B33 Od Ll DO rl TOoZn dLoG Ll. “388. 
Gd Bd 99 L197 LS "2973] 

Input Words: La 2e étape est d'apprendre au chien a avoir envie de faire ce 
que vous voulez. C'est tres simple. 

English Text 

Weore Idss: [34; T5560,.. 989 1. 93 8 96, Bn 9 8 391,. 99, T3277 .1128 
2938，39612] 

Response Words: The second step is learning to have to do to do what you're 
familiar simple. &lt;EOS&gt; 

Ground Truth: So the second stage in training is to teach the dog to want 
to do what we want him to do, and this is very easy. &lt;EOS&gt; 


French Text 

Word: Lass [2 4957» 873 974 GL86» 4 TL8; BL6, T9704; 25., T0001 3975 
Se 

Input Words: J'ai répondu : < Bien, et pourquoi ? &lt;UNK&gt; un peu plus. > 
English Text 
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Worad: Ldes, [S23 ToS V3 2 dd B97 L609 136). 2189; BELLy. TETL, 2 
39610] 

Response Words: I said, "Well, and why what? let's a little bit more more. 
&lt;UNK&gt; 

Ground Truth: And I said, "Well, why? Tell me a little bit about it." 
&lt;EOS&gt; 


可 以 看 出 , 尽管 第 一 个 示例 短语 在 训练 过 程 中 对 网 络 不 可 见 , 但 其 翻译 仍 与 实际 结果 非常 接 
我 们 还 测试 了 部 分 训练 数据 : 


Training Data 


French Text 

WOEQ: TQS [422 B37 TOBY DA 3718597O04,. L335 T9375. 4373 7 v3 Td 28 
369 -338204,. LB .306 L0G L090 BL. Sd LZ BT LE Od EG “BY 
D172. TO ‘3681] 

Input Words: Donc pour moi, c'est une chose &lt;UNK&gt; a faire, d'essayer 
d'atteindre l'autre c6te avant qu'il ne soit trop tard, parce que quangd il 
sera trop tard, il sera trop tard. 

English Text 

Woeord. Tds% [420% “D7; L323 83,. Ls .136; 464,, 39610, :8 13901, 678 87 /566., 225; 
223 64,564,. "TL8% :S563 T7397 L4G L780u. ,L131 LL8 S65 737a "30.. 39612] 
Response Words: So for me, this is a thing &lt;UNK&gt; to do try to start 
other side before before it doesn't too late, because when it will too 
late. &lt;EOS&gt; 

Ground Truth: So to me, this is the courageous thing to do, to try to reach 
the other side before it's too late, because when it's going to be too 
late, it's going to be too late. &lt;EOS&gt; 


French Text 

We FdB:: [1029; 33, 94; 625; 19704; Tl; 3404, 35; Tl; "19704. 131;. 12, 
5:9:73;,:816] 

Input Words: Quel est ce besoin &lt;UNK&gt; de l'argent, puis de 
&lt;UNK&gt; a la philanthropie ? 

English Text 

Word’ Id8:: T2168 83,. G37 217 2853 29 319, "396109. 339610% 39.612] 
Response Words: What's this need of money, and then &lt;UNK&gt; &lt;UNK&gt; 
&lt;EOS&gt; 

Ground Truth: Why the need for accumulating money, then doing &lt;UNK&gt; 
&lt;EOS&gt; 


训练 数据 的 翻译 质量 与 测试 数据 并 无 不 同 。 请 注意 , 尽管 仅 使 用 了 50% 的 数据 进行 训练 , 但 





我 们 仍 可 以 获得 不 错 的 翻译 。 你 也 可 以 在 全 部 数据 上 进行 训练 以 获得 更 好 的 结果 。 


e@ TensorBoard 可 视 化 


我 们 将 使 用 TensorBoard 来 对 训练 过 程 中 的 网 络 图 和 损失 进行 大 致 的 观察 ， 如 图 10-4 所 示 。 
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图 10-4 训练 过 程 中 的 网 络 图 及 损失 








1 了 编码 层 和 解码 层 中 。attention 机 制 通 




















可 以 看 到 ， 源 文本 和 目标 文本 的 对 应 词 戏 入 被 馈送 于 
记忆 层 的 权重 来 耦合 编码 器 输出 和 解码 咒 。 你 可 以 分 另 


| 点 击 TensorBoard 中 的 各 个 组 件 以 了 解 











过 
其 连接 和 张 量 尺 寸 的 详细 信息 。 现 在 来 看 一 下 数据 训练 期 间 的 代价 函数 图 ， 如 图 10-5 所 示 。 
a 
号 加 








图 10-5 ”代价 函数 图 
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10.2 小 结 


本 章 描述 了 几 种 常用 的 机 需 翻 译 方法 ， 并 着 重 介绍 了 NMT。 我 们 在 词法 对 齐 模型 的 背景 下 
简要 描述 了 经 典 的 SMT， 同 时 展示 了 使 用 NLTK 构建 SMT 对 齐 模 型 的 简单 示例 。 当 我 们 拥有 大 
量 双语 数据 时 ， 可 以 使 用 该 模型 进行 翻译 。 


这 种 模型 的 主要 缺点 在 于 不 能 很 好 地 推广 到 除 训练 模型 以 外 的 领域 (或 背景 ) 近年 来 ， 深 
度 神 经 网 络 已 经 成 为 机 器 翻译 的 流行 方法 ， 这 主要 是 因为 它们 能 有 效 产 生 接 近 人 类 水 平 的 翻译 。 
我 们 详细 描述 了 如 何 使 用 RNN 构建 NMT 模型 ， 并 用 TED 演讲 的 真实 数据 集 进 行 了 训练 ， 最 终 
将 法 语 短语 翻译 成 了 英语 。 除 了 法 语 -英语 翻译 外 ， 你 还 可 以 针对 自身 的 机 器 翻译 问题 来 使 用 类 
似 的 模型 ， 也 可 以 通过 使 用 其 他 attention 机 制 或 更 深层 的 编码 器 /解码 器 网 络 来 改进 本 章 所 开发 
的 模型 。 

































































使 用 DeepSpeech 进行 


语音 识别 























语音 识别 指 的 是 机 器 或 计算 机 将 口语 转换 为 文本 的 任务 。 一 个 很 好 的 示例 是 Google 文档 中 
的 语音 打字 功能 ， 该 功能 可 以 在 你 说 话 时 实时 将 语音 转换 为 文本 。 在 本 章 中 ， 我 们 将 学 习 如 何 
使 用 深度 学 习 模 型 构建 该 系统 。 我 们 还 将 特别 关注 使 用 循环 神经 网 络 ( RNN ) 模型 ， 这 类 模型 
在 语音 识别 实践 中 很 有 效果 , 因为 它们 可 以 捕捉 语音 数据 中 的 时 序 依赖 ( 这 在 语音 转 文本 任务 中 
很 重要 )。 


本 章 涵盖 以 下 主题 ， 


口 语音 识别 概述 
口 用 于 孤立 单词 识别 的 RNN 模型 
口 使 用 DeepSpeech 模型 进行 连续 语音 的 识别 












































11.1 语音 识别 概述 


语音 识别 是 一 项 复杂 的 任务 ， 因 为 它 必须 考虑 数据 变化 的 几 种 来 源 , 包括 发 声 者 的 变化 、 词 
汇 量 大 小 、 环 境 噪声 、 口 音 、 发 声 者 性 格 ， 等 等 。 例 如 ,一 个 人 能 很 快 说 出 像 apple 这 样 的 单词 ， 
而 另 一 个 人 却 可 能 说 得 更 慢 一 些 。 在 两 种 情况 下 ， 语 音 识别 系统 都 应 产生 单词 apple。 语 音 识别 
的 最 常见 方法 是 使 用 隐 马 尔 可 夫 模 型 (HMM )。 这 是 因为 语音 数据 可 以 被 视 为 随机 或 概率 过 程 ， 
并 且 对 于 一 段 很 短 的 时 间 , 可 以 认为 切片 与 时 间 无 关 。 我 们 可 以 在 代表 音素 或 单词 的 语音 数据 片 
段 上 训练 HMM 模型 ， 然 后 用 其 预测 可 以 组 合生 成 语音 文本 的 下 一 个 音素 或 单词 。 


语音 识别 可 以 进一步 分 为 孤立 单词 识别 和 连续 语音 识别 。 孤立 单词 识别 是 指 将 语音 转录 为 清 
晰 划 定 的 单个 单词 ， 而 连续 语音 识别 是 指 我 们 通常 连续 说 出 单词 的 方式 。 显 然 , 与 后 者 相 比 ,前 
者 是 一 项 更 轻松 的 任务 。 孤 立 的 单词 通常 有 清晰 的 发 音 , 并 且 其 边界 更 容易 识别 , 但 连续 语音 在 
发 音 、 间 隔 和 单词 间 依 存 关 系 上 可 能 会 有 很 多 变化 。HMM 被 用 于 人 处理 这 两 种 类 型 的 任务 已 有 一 
段 时 间 了 ， 该 模型 在 语音 数据 中 采用 特定 的 结构 ， 并 且 可 以 在 较 少 的 数据 上 进行 训练 。 使 用 
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BiLSTM 的 最 新 模型 可 以 执行 端 到 端的 语音 识别 ， 且 不 对 数据 结构 做 要 求 。 该 网 络 可 以 学 习 数据 
中 的 特征 并 捕获 时 序 依赖 性 。 一 个 简单 的 规则 是 : 如 果 我 们 有 更 多 数据 ， 则 使 用 神经 网 络 模 型 可 
能 会 比 使 用 HMM 产生 更 好 的 结果 。 接 下 来 ， 我 们 将 研究 孤立 单词 识别 的 简单 模型 。 


























11.2 ”建立 用 于 语音 识别 的 RNN 模型 


我 们 会 将 来 自 Jakobovski 的 免费 数字 音频 数据 集 用 于 我 们 的 基本 模型 。 请 将 数据 下 载 到 计算 
机 系统 上 的 任意 目录 中 。 在 示例 代码 中 ,使 用 数据 被 复制 到 的 路 径 蔡 换 指定 .wav 文件 的 路 径 。 








i 注意 ， 我 们 将 数据 分 为 包括 1470 个 文件 的 训练 集 和 包括 30 个 文件 的 测试 集 。 


在 深入 探讨 模型 的 细节 之 前 ,我 们 将 研究 如 何 为 训练 做 好 准备 。 实 际 上 ,最 常用 的 预 处 理 步 
又 是 将 原始 音频 数据 转换 为 其 频谱 。 频 谱 或 功率 谱 类 似 于 数据 的 指纹 ,原始 音频 在 其 中 被 分 解 为 
一 个 个 部 分 或 频率 。 与 其 他 表示 方法 相 比 ,频谱 表示 有 助 于 确定 信号 中 的 哪些 频率 ( 高 音调 或 低 
音调 ) 占据 主导 地 位 ( 在 功率 或 能 量 方面 )。 现 在 ,我 们 将 研究 如 何 提取 这 种 频谱 表示 或 功率 谱 
表示 。 























11.2.1 语音 信号 表示 


现在 来 看 一 下 如 何 从 语音 数字 信号 数据 集中 提取 频谱 。 该 数据 集 包 含 以 .wav 文件 形式 记录 的 
语音 记录 。 我 们 将 利用 常用 于 音频 数据 分 析 的 librosa 库 。 首先 使 用 以 下 命令 安装 软件 包 : 


pip install librosa 


关于 安装 librosa 库 的 其 他 方法 ， 请 查看 其 主页 。 我 们 将 使 用 音频 信号 的 梅 尔 频率 倒 谱系 数 
( Mel frequency cepstral coefficient ) 特征 ， 该 特征 是 从 信号 的 短 时 帧 中 获得 的 一 种 功率 谱 ， 其 主 
要 假设 是 : 对 于 20 ~ 40 毫秒 量 级 的 短 持续 时 间 ， 频 谱 变 化 不 大 。 因 此 ， 将 信号 切片 成 这 些 短 时 
间 段 ， 并 为 每 个 切片 计算 频谱 。 幸 运 的 是 ， 我 们 不 必 深 入 这 些 细节 ， 因 为 librosa 库 可 以 为 我 们 
做 到 这 一 点 。 利 用 以 下 函数 提取 MFCC 特征 : 


def get_mfcc_ features (fpath): 
raw_w,sampling_rate = librosa.load(fpath,mono=True) 























mfcc_features = librosa.feature.mfcc (raw w,sampling_rate) 
if(mfcc_ features.shape[l]>utterance_ length): 
mfcc_features = mfcc_features[:,0:utterance_length] 
else: 
mfcc_features=np.pad (mfcc_features, ((0,0), (0,utterance_ length-mfcc_ 
features.shape[1])), 
mode='constant', constant_values=0) 
return mfcc_features 


librosa.load 函数 加 载 .wav 文件 并 输出 原始 Wav 数据 raw_w 及 其 采样 率 sample_rateo 
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MFCC 特征 则 是 通过 对 原始 数据 调用 1ibrosa .feature.mfcc 畏 数 获得 的 。 请 注意 ,我们 还 将 
特征 尺寸 截断 为 utterance_length (代码 中 将 其 设置 为 35 ), 该 参数 是 根据 数字 数据 集中 发 
声 的 平均 长 度 设置 的 。 如 果 需 要 的 话 , 也 可 以 尝试 使 用 更 高 的 值 。 要 了 解 更 多 信息 , 请 查看 本 书 
代码 库 中 的 Chapter11/01_example.ipynb。 现在 , 我 们 将 打印 特征 的 维度 并 将 其 绘制 出 来 ,以 查看 
功率 谱 : 


import matplotlib.pyplot as plt 

import librosa.display 

smatplotlib inline 

mfcc_features = 

get_mfcc_features('../../speech dset/recordings/train/5_theo_45.wav') 
plt.figure(figsize=(10, 6)) 

plt.subplot (2, 1, 1) 

librosa.display.specshow(mfcc_features, x_axis='time') 


print ("Feature shape: "，mfcc_ features.shape) 
print ("Features: ", mfcc_features[:,0]) 
uti 


Feature shape: (20, 35) 

Features:[-5.16464322e+02 2.18720111e+02 -9.43628435e+01 1.63510496e+01 
2.09937445e+01 -4.38791200e+01 1.94267052e+01 -9.41531735e-02 
-2.99960992e+01 1.39727129e+01 6.60561909e-01 -1.14758965e+01 
3.13688180e+00 -1.34556070e+01 -1.43686686e+00 1.17119580e+01 
-1.54499037e+01 -1.13105764e+01 2.53027299e+00 -1.35725427e+01] 


可 以 看 到 ， 数 字 5 的 语音 信号 频谱 中 用 于 音频 信号 的 35 个 时 间 片 由 20 个 特征 (librosa 默认 
值 ) 组 成 。 我 们 还 可 以 看 到 第 一 个 时 间 片 的 MFCC 特征 值 。 现在 来 可 视 化 MFCC 特征 , 如 图 11-1 
所 示 。 

















图 11-1 中 越 红 ( 深 灰 色 ) 的 区 域 表 示 MFCC 系数 的 值 越 大 ， 而 越 蓝 〈 浅 灰色 ) 的 区 域 表示 
MFCC 系数 的 值 越 小 。 现 在 ， 我 们 将 建立 一 个 简单 的 模型 来 识别 音频 数据 中 的 数字 。 
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11.2.2 ”用 于 语音 数字 识别 的 LSTM 模 型 
为 简便 起 见 ， 本 例 将 使 用 tflearn 包 。 该 包 可 以 通过 以 下 命令 安装 : 


pip install tflearn 


我 们 将 定义 用 于 读 入 .wav 文件 并 对 其 进行 预 处 理 以 便 用 于 批 训 练 的 函数 : 


def get_batch mfcc (fpath,batch size=256): 
ft batehtsil) 
labels_batch = [] 
files = os.listdir (fpath) 
while True: 
print ("Total %d files" % len(files)) 
random.shuffle(files) 
for fname in files: 
if not fname.endswith(".wav"): 
continue 
mfcc_features = get_mfcc_ features (fpath+fname) 
label = np.eye(10) [int (fname[0])] 
labels_batch.append (label) 
ft_batch.append (mfcc_features) 
if lenl(ft _ batch) >= batch size: 
yield ft_batch, labels_batch 
Ft Batel..S1 | 
labels_batch = [] 


在 get_batch_mfcc 限 数 中 ， 我 们 读 取 .wav 文件 并 使 用 之 前 定义 的 get_mfcc_features 
函数 提取 MFCC 特征 。 标 签 是 从 0 到 9 的 10 位 独 热 键 编码 。 然 后 该 函数 默认 以 256 的 批 次 大 小 
返回 数据 。 接 下 来 定义 LSTM 模型 ; 


train batch = get_batch mfcc('../../speech dset/recordings/train/') 
sp_network = tflearn.input_datal(l[None, audio_ features, utterance_length]) 
sp_network = tflearn.lstm(sp_network, 128*4, dropout=0.5) 
sp_network = tflearn.fully_connected(sp_network, ndigits, 
activation='softmax') 
sp_network = tflearn.regression(sp_network, optimizer='adam', 
learning_rate=lr, loss='categorical_ crossentropy') 
sp_model = tflearn.DNN(sp_network, tensorboard verbose=0) 
while iterations_ train > 0: 

Xx. by Ce Mt,CCran Batch) 

X_test, y_test = next (train batch) 

sp_model.fit (xX tr, y_tr, n_ epoch=10, validation set=(X test, y_test), 
show_metric=True, batch size=bsize) 

iterations_train-=1 
sp_model.save("/tmp/speech recognition.lstm") 


该 模型 基本 上 由 一 个 LSTM 层 和 一 个 全 连接 层 组 成 。 我 们 使 用 分 类 交叉 粹 作为 Adam 优化 器 
的 损失 函数 ， 并 使 用 get_batch_mfcc 函数 的 批 处 理 输 入 来 训练 模型 。300 个 周期 后 ， 可 得 到 
以 下 输出 : 


Training Step: 1199 | total loss: 0.45749 | time: 0.617s 
| Adam | epoch: 300 | loss: 0.45749 - acc: 0.8975 -- iter: 192/256 
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接 下 来 ,我们 对 测试 集中 的 语音 文件 进行 预测 。 被 试 音频 来 自 于 数字 4 的 语音 信和 号 : 


sp_model.load('/tmp/speech recognition.lstm') 


mfcc_features 





get_mfcc_ features('../../speech dset/recordings/test/4_ jackson_ 40 .wav') 


mfcc_features 


mfcc_features.reshape((1,mftcc_features.shape[0],mfcc_ features.shape[1])) 


predlietidn digit sp_model. 
print (prediction digit) 
print ("Digit predicted: "， 


Outputs 


predict (mfcc_features) 


np.argmax(prediction digit)) 


INFO:tensorflow:Restoring parameters from /tmp/speech recognition.lstm 
[[2.3709694e-03 5.1581711e-03 7.8898791e-04 1.9530311e-03 9.8459840e-01 
1.1394228e-03 3.0317350e-04 1.8992715e-03 1.6027489e-03 1.8592674e- 


04]] 


Digit predicted: 4 


我 们 加 载 训练 后 的 模型 ， 并 获得 测试 音频 文件 的 特征 。 从 输出 可 以 看 出 ， 该 模型 能 够 预测 出 
正确 的 数字 。 我们 还 可 以 分 别 看 到 10 个 数字 的 预测 概率 。 接 下 来 ,我 们 将 研究 TensorBoard 中 的 


模型 可 视 化 。 


11.2.3 TensorBoard 可 视 化 


首先 看 看 训练 过 程 中 准确 率 和 损失 的 变化 。 打 开 TensorBoard , 指向 日 志 目 录 /tmp/tflearn_ logs 


( tflearn 默认 )， 如 图 11-2 所 示 。 































natching /*/ (all tags) 
Accuracy Accuracy/_raw_ Accuracy/Validation 
100 | | 
| 1.00 
| 
0800 -| | 
0.800 || 
| 
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060 oeo 二 | 
0.400 oa00 | | 
0.200 0200 | 
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Adam 
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我 们 发 现 验证 损失 和 训练 损失 都 随时 间 步 长 而 减少 。 请 注意 ,此 处 使 用 的 验证 集 也 来 自 于 训 
练 集 。 这 只 是 一 个 便捷 的 小 技巧 。 你 可 以 为 原始 数据 保留 一 个 单独 的 验证 集 , 就 像 为 测试 集 一 样 。 
接 下 来 ， 我 们 将 在 TensorBoard 中 查看 模型 的 图 ， 如 图 11-3 所 示 。 
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11-3 ”TensorBoard 中 的 模型 图 
如 前 所 述 ， 我 们 通过 一 个 输入 层 将 MFCC 音频 特征 张 量 馈送 到 LSTM 层 ， 而 LSTM 的 输出 
被 馈送 到 用 于 输出 预测 的 全 连接 层 。 接 下 来 ， 我 们 将 研究 如 何 使 用 DeepSpeech 架构 创建 语音 
文本 模型 。 





11.2.4 ”使 用 DeepSpeech 架 构 的 语音 转 文本 模型 

DeepSpeech 是 一 个 端 到 端的 架构 ， 其 中 ， 深 度 学 习 取 代 了 传统 手工 设计 的 语音 转 文 本 算法 。 
该 模型 运行 良好 , 不 受 说 话 人 影响 , 因为 它 可 以 直接 从 数据 中 学 习 。 我 们 将 简要 介绍 DeepSpeech 
的 模型 架构 。 








1. DeepSpeech 模型 概述 


该 模型 由 一 堆 全 连接 隐藏 层 、 一 个 双向 RNN 和 输出 部 分 的 其 他 隐藏 层 组 成 。 前 三 个 非 递归 
层 的 作用 类 似 于 RNN 层 的 预 处 理 步 又。 一 种 附加 做 法 是 使 用 ReLU 以 防止 激活 爆炸 。 输 入 音频 
特征 是 非 递 归 层 在 频谱 图 的 时 间 切 片 中 所 看 到 的 梅 尔 倒 谱系 数 。 除 了 通常 的 时 间 切 片 外 , 模型 还 
对 频谱 数据 进行 了 预 处 理 ， 以 包括 过 去 和 将 来 的 语 境 。 第 四 层 是 RNN 层 ， 具 有 正 向 递归 和 反 向 
递归 。 第 五 层 采用 向 前 和 向 后 递归 的 串联 输出 ， 产 生 输 出 并 将 其 馈送 到 预测 字符 概率 的 最 终 
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softmax 层 。 图 11-4 展示 了 原始 论文 中 的 模型 架构 ， 其 中 蓝 色 〈 灰 色 水 平实 线 ) 和 红色 ( 灰色 水 
平 虚线 ) 箭头 分 别 表 示 隐 藏 层 和 双向 递归 层 。 























带 有 上 下 文 的 音频 输入 也 与 时 间 切 片 的 MFCC 功能 特征 一 起 显示 了 出 来 。 现 在 ， 我 们 将 研 
究 如 何在 TensorFlow 中 实现 该 模型 。 完 整 的 Jupyter Notebook 可 在 本 书 代 码 库 中 找到 
( Chapter11/02_example.ipynb )。 在 此 之 前 ， 我 们 将 简要 介绍 用 于 模型 训练 的 数据 。 


2. 语音 录音 数据 集 


我 们 将 利用 Kaggle 上 语言 数据 协会 (Linguistic Data Consortium，LDC ) 的 语音 录音 。 你 可 
以 使 用 Kaggle 账户 下 载 该 数据 集 。 该 数据 包括 不 同 说 话 者 的 自由 语音 录音 。 尽 管 原始 数据 集 非 
常 大 (有 几 吉 字 节 )， 但 Kaggle 中 的 数据 只 是 它 很 小 的 一 个 子 集 ， 因 此 我 们 可 以 在 合理 的 时 间 内 
进行 训练 。 请 注意 , 语音 转 文本 的 工作 可 能 需要 大 量 的 语音 转录 数据 ,并 可 能 需要 花费 数 小 时 或 
数 天 的 时 间 才 能 训练 得 到 一 个 良好 、 有 意义 转录 效果 的 模型 。( 当然 ) 你 也 可 以 在 较 大 数据 上 构 
建 相同 模型 ， 以 实现 准确 率 更 好 的 语音 转 文本 。 有 关 本 节 中 的 完整 代码 ,可 以 参考 本 书 代码 库 中 
的 Jupyter Notebook ( Chapter11/02 example.ipynb )。 
































3. 预 处 理 语音 数据 


就 像 先前 的 示例 一 样 ， 我 们 从 音频 数据 中 提取 MFCC 特征 。 除 此 之 外 ， 我 们 还 添加 了 原始 
论文 中 使 用 的 上 下 文 : 
def audiofile to_vector(audio_ fname, n_ mfcc_features, nctx): 
sampling_rate, raw_w = wavfile.read(audio_fname) 


mfcc_ft = mfcc(raw_w, samplerate=sampling_ rate, numcep=n mfcc_features) 
| 
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n_strides = len(mfcc ft) 
dummy_ctx = np.zeros((nctx, n_ mfcc_features), dtype=mfcc_ft.dtype) 
mfcc_ft = np.concatenate( (dummy_ctx, mfcc_ft, dummy_ctx)) 
w_size = 2*nctx+1 
input_vector = np.lib.stride tricks.as_strided(mfcc_ ft, (n_strides, 
w_size, 
n_mfcc_ features, (mfcc_ft.strides[0], 
mfcc_ft.strides[0], mfcc_ft.strides[1]), 
writeable=False) 
input_vector = np.reshape (input_vector, [n_strides, -1]) 
input_vector = np.copy (input_vector) 
input_vector = (input_vector - 
np.mean (input_vector))/np.std(input_vector) 
return input_vector 


首先 读 取 .wav 文件 , 然后 提取 MFCC 特征 mfcc_ft, 并 使 用 NumPy as_strided 函数 将 模 
拟 上 下 文 添加 到 每 个 时 间 切 片 的 前 后 , audiofile_to_vector 了 国 数 最 终 返 回 带 有 过 去 和 将 来 上 
下 文 的 MFCC 特征 。 接 下 来 ， 我 们 将 研究 如 何 从 数据 集中 提取 源 文 本 和 转录 文本 以 进行 批 处 理 
训练 : 


def get_wav_trans (fpath,xXx, y): 
files = os.listdir (fpath) 
for fname in files: 
next_path = fpath + "/" + fname 
if os.path.isdir (next_path): 
get_wav_trans (next_path,Xx,y) 





else: 

if fname.endswith('wav'): 
fname without_ ext = fname.split(".")[0] 
trans_fname = fname without ext + ".txt" 


trans_fname path = fpath + "/" + trans_fname 

if os.path.isfile(trans_fname path): 
mfcc_ft = audiofile to vector(next_ path,n_inp,n_ctx) 
with open(trans_fname path,'r') as content: 





transcript = content.read() 
transcript = re.subl(regexp_alphabets, ' ', 
transcript) .strip() .lower() 


trans_lbl = get_string2label (transcript) 
xX.append (mfcc_ft) 
y.append (trans_1bl) 


我 们 通过 提供 的 路 径 fpatn 递归 提取 所 有 wav 文件 的 MFCC 特征 。audio_file_to_ 
vector 函数 ( 此 前 展示 过 ) 将 提取 我 们 找到 的 每 个 wav 文 件 的 MFCC 特征 , 并 从 文本 文件 中 读 
取 相 应 的 转录 文本 。 同 时 ， 我 们 利用 正则 表达 式 regexp_alphabets 从 转录 的 文本 中 删除 非 字 
母 字符 。 原 始 文本 记录 将 被 传递 到 get_string21abel 函数 并 被 转换 为 整数 标签 用 作 模 型 训练 
的 目标 标签 : 

regexp_alphabets = "[^a-zA-2']+" 


cnt=0 
def get_label (ch): 
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global cnt 
label = cnt 
cnt+=1 
return label 
chr21bl = {c:get_label(c) for c in list(chars)} 
lbl2chr = {chr2lbl[cl:c for c in list(chars)} 


def get_string2label (strval): 


strval = strval.lower!() 
Ee 四 Y= 于 拉 且 | 
for c in list(strval): 


Tf Mn hrZLTDLIS: 


idlist.append (chr21lbli[c 


return np.array (idlist) 


def get_label2string (lblarr): 
strval [] 
for idv in lblarr: 
strval.append (lbl2chr[idv]) 
return ''.join(strval) 


get_string2label 使 用 chr21b1 字 


] ) 


典 将 字符 串 转 换 为 整数 标签 列表 , 该 字典 将 a-z 的 字 


Y 





符 (另外 带 有 空格 和 撤 号 ) 映射 为 整数 值 。 同 样 ， 我 们 使 用 get_1abe12string 函数 将 标签 列表 





(通过 反 向 映射 1b12chr ) 转换 为 原始 字符 
4. 创建 模型 
我 们 将 准确 复制 DeepSpeech 原始 论文 








和 。 接 下 来 ， 我 们 将 研究 如 何 创建 DeepSpeech 模型 。 


中 描述 的 模型 。 如 前 所 述 ， 该 模型 由 循环 层 和 非 循环 


层 组 成 。 现 在 在 代码 中 查看 get_layers 哺 数 : 


with tf.name_ scope('Lyr1'): 
B1 tf.get_variable (name='B1', 


shape=[n_h], 


initializer=tf.random normal_initializer (stddev=0.046875)) 


H1 


tf.get_variable (name='H1', 


shape=[n_inp + 2*n_ inp*n _ ctx, n_h], 


initializer=tf.contrib.layers.xavier_initializer (uniform=False)) 


logitsl1l = tf.add(tf.matmul (Xx_batch, Hl1), Bl1) 

relul = tf.nn.relu(logits1) 

clipped relul = tf.minimum(relul,20.0) 

Lyrl = tf.nn.dropout (clipped_ relul, 0.5) 
with tf.name_ scope('Lyr2'): 

B2 = tf.get_variable(name='B2', shape=[n_h], 


initializer=tf.random normal_initializer(stddev=0.046875)) 


H2 tf.get_variable (name='H2', 


shape=[n_h,n_h], 


initializer=tf.random normal_initializer(stddev=0.046875)) 


logits2 tf.add(tf.matmul (Lyrl1 
relu2 tf.nn.relu(logits2) 

clipped_ relu2 
Lyr2 


with tf.name_ scope('Lyr3'): 
B3 tf.get_variable (name='B3', 


tf.nn.dropout (clipped_ relu2, 


H20)%:, B2) 


a 


tf.minimum(relu2,20.0) 


US 


shape=[2*n_h], 


initializer=tf.random normal_initializer(stddev=0.046875)) 
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H3 = tf.get_variable(name='H3', shape=[n_h,2*n _h], 
initializer=tf.random normal_initializer(stddev=0.046875)) 
logits3 = tf.add(tf.matmul (Lyr2, H3), B3) 

relu3 = tf.nn.relu(logits3) 

clippeqd_relu3 = tf.minimum(relu3,20.0) 

Lyr3 = tf.nn.dropout (clipped relu3, 0.5) 


前 三 个 隐藏 层 是 非 循环 的 , 其 中 参数 H1、H2、H3 和 B1、B2、B3 分 别 是 各 层 的 权重 和 偏差 。 
各 层 的 输出 通过 ReLU 裁剪 函数 以 避免 梯度 爆炸 。 同 时 我 们 还 为 前 三 个 隐藏 层 提供 了 随机 失 活 。 
请 注意 ， 第 一 个 隐藏 层 权重 的 维度 为 [n_inp + 2 * n_ip * n_ctx，n_h]， 这 与 带 有 上 下 文 
的 输入 MFCC 相同 。 在 下 列 代码 中 ， 我 们 将 隐藏 单元 的 数量 n_h 设置 为 1024, 将 MFCC 特征 
n_inp 设置 为 26， 并 将 上 下 文 n_ctx 设置 为 9。 随 后 查看 循环 层 : 

with tf.name_scope('RNN_Lyr'): 


fw c = tf.contrib.rnn.BasicLSTMCell (n_h, forget_ bias=1.0, 
state_is_ tuple=True, 











T 








reuse=tf.get_ variable_scope() .reuse) 

fw c = tf.contrib.rnn.DropoutWrapper (fw_c, input_keep_prob=0.7, 
output_keep_prob=0.7,seed=123) 

bw_c = tf.contrib.rnn.BasicLSTMCell (n_h, forget_ bias=1.0, 


state_is_ tuple=True, 
reuse=tf.get_variable_ scope() .reuse) 
bw_c = tf.contrib.rnn.DropoutWrapper (bw_c,input_keep_prob=0.7, 
output_keep_prob=0.7, seed=123) 
Lyr3 = tf.reshape(Lyr3, [-1, XxX batch shape{[0], 2*n_h]) 
outs, out_states = tf.nn.bidirectional_ dynamic rnn(cell fw=fw_c, 
cell bw=bw_c,inputs=Lyr3,dtype=tf.float32,time major=True, 
sequence_length=seq_len) 
.Concat (outs, 2) 
.reshape(outs, [-1, 2 * nhl]) 








Ute 下 
outs t 








如 前 所 述 , 循环 层 是 带 有 随机 失 活 机 制 的 双向 LSTM。 向 前 和 向 后 LSTM 的 级 联 输出 被 输入 
到 下 一 个 隐藏 层 。 现 在 ， 我 们 将 在 输出 中 查看 这 两 个 隐藏 层 : 


with tf.name_scope('LYyr4') : 
B4 = tf.get_variable(name='B4', shape=[n_h], 
initializer=tf.random normal_initializer(stddev=0.046875)) 
H4 = tf.get_variable(name='H4', shape=[(2 * n h), n_h], 
initializer=tf.random normal_initializer(stddev=0.046875)) 
logits4 = tf.add(tf.matmul (outs, H4), B4) 
relu4 = tf.nn.relu(logits4) 
clippedq_relu4 = tf.minimum(relu4,20.0) 

Lyr4 = tf.nn.dropout (clipped_relu4, 0.5) 














with tf.name_scope('Lyr5'): 

B5 = tf.get_ variable(name='B5', shape=[n_h], 
initializer=tf.random normal_initializer(stddev=0.046875)) 
H5 = tf.get_variable(name='H5', shape=[n_h, n_chars], 
initializer=tf.random normal_initializer(stddev=0.046875)) 
Lyr5 = tf.add(tf.matmul (Lyr4, H5), B5) 

Lyr5 = tf.reshape(Lyr5, [-1, X_ batch _ shape[0], n_chars]) 
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同 输入 中 的 隐藏 层 一 样 ， 最 后 两 个 隐 茂 层 分 别 具 有 权重 H4、H5 和 偏差 B4、B5。 第 4 层 既 
ReLU 激活 ,也 配 有 随机 失 活 机 制 。 第 五 层 将 以 一 个 字符 为 单位 输出 n_chars ( 包括 字母 数 
空白 数 ) 个 字符 的 概率 。 之 后 ， 我 们 将 研究 损失 函数 和 优化 此 的 定义 : 


def get_cost (tgts,1logits,1len seq): 
loss_t = ops.ctc ops.ctc_ loss(tgts, logits, len_ seq) 
loss_avg = tf.reduce mean(loss_t) 
return loss_avg 














def get_optimizer (logits,len seq,loss_avg): 

adqm_opt = 
tf.train.AdamOptimizer (learning_ rate=plr,betal=pbl,beta2=pb2,epsilon=peps) 

agdm_ opt = adm opt.minimize(loss_avg) 

dec, prob_log = ops.ctc_ ops.ctc beam search decoder (logits, len_ seqg, 
merge_repeated=False) 

return adm opt,dec 


我 们 将 使 用 TensorFlow tensorflow.python.ctc_ops.ctc_loss 中 的 联结 主义 时 间 分 类 
( Connectionist Temporal Classification，CTC ) 损失 函数 。 该 函数 以 对 数 和 目标 变量 作为 输入 并 计算 损 
失 。 在 此 ， 平 均 损 失 由 get_costs 函数 计算 ， 并 使 用 optimizer 困 数 中 的 AdamOpt imizer 
最 小 化 。 现 在 ， 我 们 将 看 看 用 于 模型 训练 的 批 数 据 馈 送 


class Batch : 
def __ init_ _(self): 
self.start_idx = 0 
self.batch size = 10 
self.audio = [] 
self.transcript = [] 
get_wav_trans("../../speech dset/timit/",self.audio,self.transcript) 














def pad_seql(self, seqs): 
seq_lens = np.asarray ([len(st) for st in seqs], dtype=np.int64) 
n_s = len(segs) 
max_seq_len = np.max(seq_lens) 
s_shape = tuplel() 
for s in segqgs: 
if len(s) > 0: 


s_shape np.asarray (s) .shapel[l:] 
break 
seqs_trc = (np.ones((n_s, max_ seq_ len) + s_shape) * 


0.).astype (np.float32) 
for ix, s in enumerate(segs): 
if len(s) == 0: 
continue 
trc = s[:max_seqg_len] 
trc = np.asarray (trc, dtype=np.int64) 
if trc.shape[1l:] != s_shape: 
raise ValueError ("ERROR in truncation shape") 
seqs. trc[ix, :len{(trc)] = 七 2c 
return seqs_trc, seq_lens 
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def get_sp_tuple(self,seqs): 

WS 

vars eS 回 

for n, s in enumerate(seqs): 
ixs.extend(zip([n] * len(s), range(len(s)))) 
vals.extend!(s) 
ixs = np.asarray (ixs, dtype=np.int64) 
vals = np.asarray (vals, dtype=np.int32) 
shape = np.asarray ([len(segqs), ixs.max(0)[1] + 1]， 

dtype=np.int64) 
return ixs, vals, shape 


def get_ next_batch(self): 
src = self.audio[self.start_idx:self.start_ idx+self.batch sizel] 
tb 二 
self.transcript [self.start_ idx:self.start_idx+self.batch size] 
self.start_idx += self.batch size 
if(self.start_idx>len(self.audio)): 
self.start_idx=0 
src,src_len = self.pad_ seql(src) 
sp_lbls = self.get_sp_tuple (tgt) 
return src, src_len, sp_lbls 





我 们 利用 get_wav_trans 从 .wav 和 .txt 文 件 中 获取 MFCC 特 征 audio 和 文本 transcript。 
get_next_batch 羡 数 以 batch_size 的 大 小 返回 源 (音频 ) 和 目标 (文本 )， 而 pad_seq 本 
数 将 MFCC 序列 填充 到 特定 批 序列 的 最 大 长 度 。 类 似 地 ，get_sp_tuple 可 以 用 来 获取 目标 标 
签 的 稀 玻 表示 。 现 在 ， 我 们 来 看 一 下 训练 参数 设置 : 


def get_ model (): 

input_t = tf.placeholder (tf.float32, [None, None, n_ inp + (2 * n inp * 
n_ctx)], name='inp') 

tgts = tf.sparse placeholder (tf.int32, name='tgts') 

len_ seq = tf.placeholder (tf.int32, [Nonel], name='len seq') 

logits = get_logits (input_t,tf.to_ int64(len seq)) 

return input _t, tgts, len_ seq, logits 


get_mogel 隐 数 为 源 (MFCC 特征 )、 目 标 (转录 文本 标签 ) 和 序列 长 度 创 建 输入 占 位 符 张 
量 , 然后 调用 get_1logits 函数 ， 而 后 者 则 调用 前 面 所 述 的 get_layers。 此 函数 可 以 创建 模 
型 。 现 在 我 们 来 看 一 下 模型 训练 循环 : 


gr = tf.Graph() 

with gr.as_default (): 
input_t,tgts,len seq,logits = get_model() 
loss_avg = get_ cost (tgts,1logits,1len sed) 
adm_opt, dec = get_ optimizer(logits,1len seq,loss_avg) 
error_rate = get_error_rates (dec,tgts) 
sess = tf.Session() 
writer = tf.summary.FileWriter('/tmp/models/', graph=sess.graph) 
loss_summary = tf.summary.scalar ("loss_avg", loss_avg) 
sum_op = tf.summary.merge_all() 
init_op = tf.global_ variables_ initializer() 
sess.run(init_op) 
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for ep in range (epochs): 
trairn eost = 0 
Jabel_err_rate = 0 
batch_ feeder = Batch() 
n_batches = 


np.ceil(len(batch_ feeder.audio)/batch_ feeder.batch size) 
n_batches = int(n_batches) 


st = time.time!() 


for batch in range(n batches): 
src,len_ src,labels_src = batch feeder.get next_batch() 


data_dict = {input_t: 
batch_cost, _,summ = 





data_dict) 


src, tgts: labels_src,len seq:len src} 
sess.run([loss_avg, adm_opt,sum_op], 





train_cost += batch cost * batch_ feeder.batch size 
print ("Batch cost: {0}, Train cost: 
{1}".format (batch_cost,train_ cost)) 
label_err_rate += sess.runl(error_ rate, feed dict=data dict) * 


batch_feeder.batch_ size 








print ('Label error: {}'.format (label_ err_rate)) 
writer.add_summary (summ,ep*batch_ feeder.batch size+batch) 
saver = tf.train.Saver() 
saver.save(sess, '/tmp/models/speech2txt.ckpt') 
decoded val = sess.run(dec[0], feed dict=data_dict) 
d_decoded_val = tf.sparse_ tensor_ to_dense(decoded val, 
default_value=-1) .eval (session=sess) 


ent -maw 4 
if cnt < cnt_max: 


decodeqd_ val_to_ text (labels_src) 


for actual_val, decoded val in zipl(d_ lbl, d_ decoded val): 


d_str = array2txt (decoded val) 





print('Batch {}'.format (batch)) 
print('Actual: {}'.format (actual_val)) 
print ('Predicted: {}'.format(d_str)) 
Cent 尝 续 -证 
time taken = time.time() - st 
16gG = "EDGGn {}/{}y training costi ff: 3f},, error. ate {: .3f}, 


time: {:.2f} sec' 


print (log.format (ep,epochs,train cost/len(batch feeder.audio), 
(label_err_rate/len(batch feeder.audio)), time taken)) 

















我 们 首先 通过 调用 get_model、 get_cost、 get_optimizer 和 get_error_rates， :人 
别 创 建 图 .损失 函数 、 优 化 器 并 计算 错误 率 以 完成 对 图 的 设置 和 训练 。 我 们 初始 化 batch_feeaqer 
以 批量 获取 训练 数据 ， 同 时 在 字典 feea 中 填充 源 src、 目 标 labels_src 和 源 长 度 src_len。 














1 








在 每 个 批 次 完成 后 ， 我 们 将 打印 该 批 次 的 误差 、 标 签 错误 率 并 保存 模型 。 在 每 个 周期 完成 之 后 ， 


我 们 还 将 打印 示例 预测 文本 。 
5. TensorBoard 可 视 化 
现在 ， 我 们 将 使 用 TensorBoard 查看 











图 形 和 损失 隐 数 。 启 动 TensorBoard 并 指向 代码 中 的 日 





志 目 录 ( /tmp/models 或 设置 的 其 他 路 径 )。 该 图 的 可 视 化 结果 如 图 11-5 所 示 。 
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11-5 TensorBoard 上 的 模型 图 可 视 化 
我 们 可 以 快速 找到 该 模型 与 原始 DeepSpeech 论文 [Raman ee 
中 模型 架构 之 间 的 相似 之 处 : 输入 为 非 循环 层 , 然后 是 
RNN 层 和 输出 隐藏 层 。 现 在 ,我 们 将 研究 平均 CTC 损 | 
失 随 训练 的 变化 情况 ， 如 图 11-6 所 示 。 人 
600 
可 以 看 出 , 随 着 训练 的 进行 ,CTC 的 损失 稳步 减少 。 
尽管 我 们 的 模型 复制 了 DeepSpeech 架构 ， 但 仅 在 较 小 
数据 集 上 进行 了 训练 。 为 了 获得 良好 的 转录 准确 度 ( 单 200 
词 错误 率 和 CRT 丢失 等 ， 这 些 与 说 话 者 无 关 )» 我 们 可 0.000 10.00 20.00 30.00 40.00 50.00 
:三 加 CSsv JSON 


能 需要 在 大 型 数据 集 上 展开 训练 。 想 了 解 详细 信息 ， 你 
还 可 以 查看 GitHub 上 Mozilla 的 另 一 个 DeepSpeech 实 
现 。 该 实现 使 用 了 数 十 吉 字 节 的 数据 集 , 并 在 多 个 GPU 
上 进行 了 分 布 式 训练 。 与 之 不 同 , 我 们 这 里 展示 的 实现 
是 为 了 快速 提出 一 个 简单 的 模型 并 进行 训练 。 





runto download vw 





loss_avg 








11-6 
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11.2.5 “语音 识别 最 新 技术 


原始 的 DeepSpeech 架构 使 用 语言 模型 来 纠正 字符 序列 中 的 某 些 错误 , 结合 了 RNN 的 输出 和 
语言 模型 以 得 出 给 定语 音 录音 最 可 能 对 应 的 文本 序列 。 基于 attention 的 方法 由 于 能 够 有 效 提高 非 
attention 机 制 模型 的 准确 率 而 得 到 流行 ， 甚 至 已 被 用 于 语音 识别 。Google 的 论文 “Listen, Attend,， 
and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition” 就 结合 了 
attention 机 制 来 转录 语音 记录 。 

该 系统 的 主要 优点 是 使 用 基于 attention 的 模型 ， 并 且 不 假定 序列 中 的 字符 独立 性 (包括 
DeepSpeech 在 内 的 许多 基于 CTC 的 方法 都 会 假定 序列 中 后 续 字 符 之 间 的 概率 独立 分 布 ), 旗 们 
简要 看 一 下 其 架构 ， 如 图 11-7 所 示 。 
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图 11-7 显示 了 该 模型 的 主要 组 件 , 即 Listener 和 Speller。Listener 将 输入 音频 频谱 x 编码 为 
高 级 特征 表示 h。 普 面 BiLSTM 和 Listener 体系 结构 之 间 的 主要 区 别 在 于 前 者 使 用 了 人 金字塔 结构 。 
这 种 结构 降低 了 每 个 级 别 上 非常 大 的 输入 音频 序列 的 时 间 分 辨 率 ， 从 而 减少 了 Speller 必须 参与 
以 产生 转录 的 有 用 音频 信息 的 数量 ,Speller 使 用 Listener 输 出 的 最 终 高 阶 表 示 形 式 来 计算 attention 
上 下 文 向 量 。 然 后 , 在 每 个 时 间 步 中 ，Speller 都 将 根据 使 用 attention 向 量 之 前 看 到 的 所 有 重要 字 
符 来 计算 下 一 个 字符 的 概率 。 作 者 指出 ,与 神经 网 络 和 基于 HMM 的 最 新 模型 相 比 , 该 模型 在 字 

着 误 率 ( WER ) 方面 准确 率 较 高 。 


























11.3 小结 


本 章 描 述 了 语音 识别 中 的 深度 学 习 方 法 ， 概 述 了 当前 实际 使 用 的 语音 识别 软件 。 我 们 看 到 ， 
基于 HMM 的 传统 方法 可 能 需要 与 特定 的 语言 模型 相 结合 ， 而 基于 神经 网 络 的 方法 可 以 完全 从 数 
据 中 学 习 端 到 端的 语音 转录 。 这 是 神经 网 络 模型 相 较 于 HMM 模型 的 主要 优势 之 一 。 我 们 使 用 
TensorFlow 开发 了 基本 的 语音 数字 识别 模型 ， 然 后 使 用 开放 的 语音 数字 数据 集 对 测试 集 进 行 训练 
并 做 出 预测 。 该 示例 提供 了 语音 识别 系统 所 涉及 任务 的 背景 , 例如 从 原始 音频 数据 中 提取 频谱 ( 如 
MFCC 特征 ) 并 将 文本 转录 本 转换 为 标签 。 然 后 ， 我 们 介绍 了 百度 的 DeepSpeech 架构 ， 它 是 转录 
语音 的 一 个 流行 模型 。 然后 , 我 们 解释 了 TensorFlow 中 对 DeepSpeech 模型 的 完整 实现 , 并 在 LDC 
数据 集 的 子 集 上 进行 了 训练 。 为 了 进一步 探索 ， 读 者 可 以 调整 模型 参数 并 尝试 更 大 的 数据 集 。 


然后 ， 我 们 针对 基于 attention 的 模型 简要 介绍 了 语音 识别 的 最 新 技术 。 我 们 研究 了 “Listen， 
Attend, and Spell”( LAS ) 论文 中 描述 的 基于 attention 的 模型 。 尽 管 基于 CTC 的 模型 假定 各 个 字 
符 独 立 ， 但 是 LAS 模型 并 未 做 出 这 样 的 假设 。 正 如 作者 所 述 ， 这 正 是 LAS 优 于 类 DeepSpeech 
模型 的 主要 优势 之 一 。 有 兴趣 的 读者 可 以 在 GitHub 上 查看 该 模型 的 PyTorch 实现 。 


在 下 一 章 ， 我 们 将 查看 语音 识别 的 逆 任 务 ， 即 文本 转 语音 。 

































































使 用 Tacotron 进行 
文本 转 语 首 








文字 转 语音 ( text-to-speech，TTS ) 是 将 文字 转换 为 可 理解 的 自然 语音 的 行为 。 在 深入 研究 
用 于 处 理 TTS 的 深度 学 习 方法 前 ， 我 们 应 当 问 自己 以 下 问题 TTS 系统 的 用 途 是 什么 ? 我们 为 
什么 对 其 有 需求 呢 ? 


TTS 有 很 多 用 途 , 最 显而易见 的 一 个 用 途 是 让 盲人 听 到 书面 内 容 。 实际 上 ,并 不 总 是 有 基于 
育 文 的 图 书 、 设 备 和 指示 牌 ,也 并 不 总 是 有 人 读 给 盲人 听 。 在 不 久 的 将 来 ,智能 眼镜 可 能 会 被 用 
来 描述 周围 的 环境 ， 并 为 用 户 阅读 城市 指示 牌 和 文本 指引 。 


许多 人 从 小 就 在 学 习 障 得 〈 如 阅读 障碍 ) 中 挣扎 ， 而 强大 的 TTS 系统 可 以 随时 为 其 提供 帮 
助 ， 例 如 提高 他 们 在 学 习 或 工作 中 的 效率 。 


此 外 ,在 学 习 领 域 , 不 同 的 个 体 偏 好 不 同 的 知识 吸收 方式 。 例 如 ， 有 些 人 具有 很 好 的 视觉 记 
忆 力 , 另 一 些 人 更 容易 记 住 听 到 的 信息 , 还 有 些 人 更 依赖 于 他 们 的 动 觉 记忆 (与 身体 运动 有 关 的 
记忆 )。TTS 系统 可 以 帮助 听觉 学 习 者 利用 这 种 独特 的 学 习 方式 。 

如 今 的 世界 日 新 月 异 , 多 任务 处 理 已 成 为 必需 。 我 们 经 常 看 到 有 人 在 街 上 行走 的 同时 阅读 智 
能 手机 上 的 内 容 。 可 能 还 会 有 人 边 做 饭 边 查看 触摸 屏 设 备 上 的 菜谱 说 明 。 但 是 ， 如 果 行 人 缺乏 视 
党 注意 力 ， 就 会 导致 事故 发 生 (第 一 种 情况 ); 如 果 厨 师 手 指 脐 脏 黏 腻 ， 就 会 无 法 下 滑 屏 幕 查看 
剩余 的 菜谱 ( 第 二 种 情况 )。 这 将 如 何 是 好 ? TTS 就 是 避免 这 些 不 便 的 自然 解决 方案 。 

可 以 看 出 ，TTS 应 用 程序 具有 改善 我 们 日 常生 活 方方面面 的 潜力 。 

本 章 涵盖 以 下 主题 : 

口 TTS 领域 概述 
口 关于 TTS 的 最 新 深度 学 习 方 法 
口 分 步 实 现 Tacotron (一 个 端 到 端 深度 学 习 模 型 ) 
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12.1 TTS 领域 概述 

本 节 将 提供 有 关 TTS 算法 的 一 般 信息 。 我 们 并 不 是 要 彻底 解决 该 领域 的 不 同 问题 ， 这 将 是 
一 项 非常 复杂 的 任务 ， 需 要 具有 关于 语言 或 信号 处 理 等 的 跨 领域 知识 。 

我 们 将 沿 着 以 下 高 级 问题 : 是 什么 使 TTS 系统 变 得 是 好 或 是 坏 ? 我 们 该 如 何 评估 ?有 哪些 
传统 技术 , 日 为 什么 该 领域 需要 转向 深度 学 习 ? 我 们 还 将 通过 提供 一 些 有 关 频 谱 图 ( spectrogram ) 
的 基本 信息 来 为 下 一 部 分 做 准备 。 






































12.1.1 自然 性 与 可 懂 性 


在 传统 意义 上 ，TTS 系统 的 质量 是 通过 两 个 标准 评估 的 : 自然 性 和 可 懂 性 。 这 是 由 于 人 们 不 
仅 对 音频 内 容 很 敏感 ， 对 音频 内 容 的 传送 方式 也 很 敏感 。 基 本 上 , 我 们 需要 一 个 能 以 类 似 于 人 的 
方式 产生 清晰 音频 内 容 的 TTS 系统 。 更 准确 地 说 ， 可 届 性 是 指 音 频 质量 或 清晰 度 ， 而 自然 性 是 
指 以 适当 的 发 音 、 时 机 和 情感 范围 传达 信息 。 


用 户 可 以 通过 具有 高 度 可 懂 性 的 系统 轻松 区 分 不 同 的 单词 。 与 之 相反 ， 当 可 懂 性 较 低 时 ， 某 
些 单词 可 能 会 与 其 他 单词 混 消 、 难 以 识别 ， 并 且 单 词 之 间 的 分 隔 可 能 不 清楚 。 在 大 多 数 情况 下 ， 
可 懂 性 是 两 者 中 更 重要 的 参数 。 这 是 因为 无 论 听 起 来 自然 与 否 , 向 用 户 传达 清晰 明确 的 消息 通常 
是 优先 事项 。 如 果 用 户 无 法 理解 系统 生成 的 音频 ， 就 说 明 它 是 失败 的 。 因 此 , 在 尝试 优化 所 生成 
语音 的 自然 性 之 前 ， 必 须 具 有 最 低 限 度 的 清晰 度 。 

一 方面 ， 当 TTS 算法 具有 高 度 的 自然 性 时 ， 它 产生 的 内 容 将 非常 平滑， 用户 此 时 会 感觉 是 
另 一 个 人 在 说 话 ， 而 无 法 察觉 语音 是 人 为 创造 的 。 另 一 方面 , 不 连续 、 单 调 且 无 生气 的 语调 是 不 
自然 语音 的 典型 特征 。 































































































请 注意 ， 这 些 都 是 相对 主观 的 标准 ， 而 非 客 观 指标 。 实际 上 ， 由 于 该 问题 的 性 
质 ，TTS 系统 只 能 由 人 来 评估 。 


12.1.2 TTS 系 统 表现 的 评估 方式 


声音 质量 的 一 种 主观 度量 指标 是 平均 意见 得 分 (mean opinion score，MOS )， 它 是 评估 TTS 
算法 性 能 的 最 常用 测试 之 一 。 该 测试 通常 会 要 求 几 名 指定 语言 母语 者 给 出 自然 性 得 分 ， 从 1 ( 质 
量 差 ) 到 5 ( 质量 优秀 )。 这 些 分 数 的 平均 值 就 是 MOS。 专 业 人 士 录制 的 音频 样本 的 MOS 通常 
约 为 4.55， 如 论文 “WaveNet: A Generative Model for Raw Audio” 所 示 ， 我 们 将 在 之 后 对 其 做 出 
展示 。 


但 是 这 种 TTS 基准 测试 算法 并 不 完全 令 人 满意 : 它 不 允许 对 不 同 论文 中 提出 的 不 同 算法 进 
行 严 格 的 比较 。 实 际 上 ， 算 法 A 与 算法 B 不 一 定 具 有 相同 的 收听 者 。 由 于 不 同 的 人 可 能 或 多 或 
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少 地 具有 不 同 的 自然 声音 标准 ， 如 果 算 法 A 的 MOS 得 分 为 4.2 而 算法 B 的 MOS 得 分 为 41， 这 
并 不 意味 着 算法 A 一定 优 于 算法 B( 除非 它们 是 在 同一 研究 中 由 同一 组 个 体 进行 评估 的 )。 此 外 ， 
由 于 样本 规模 以 及 听众 样本 人 和 群 难以 标准 化 ， 也 可 能 有 区 别 产 生 。 











12.1.3 ”传统 技术 一 一 级 联 模型 和 人 参数 模型 
在 TTS 任务 中 的 深度 学 习 技术 兴起 之 前 ， 人 们 一 直 在 使 用 级 联 模型 或 参数 模型 。 


要 创建 级 联 模型 ,需要 录制 高 质量 的 音频 内 容 、 将 其 分 成 小 块 , 然后 重新 组 合 以 形成 新 的 语 
音 。 对 于 参数 模型 ， 则 必须 使 用 信号 处 理 技术 来 创建 特征 ， 而 这 需要 一 些 其 他 领域 的 知识 。 


级 联 模型 易于 理解 , 但 缺乏 自然 性 ， 还 需要 庞大 的 数据 集 ( 该 数据 集 应 尽 可 能 多 地 考虑 人 为 
生成 的 音频 单元 )。 因 此 ， 该 模型 的 开发 通常 需要 很 长 。 


通常 来 说 , 参数 模型 的 性 能 比 级 联 模型 要 差 。 它 们 生成 的 语音 可 能 缺乏 可 懂 性 ,而 且 听 起 来 
不 够 自然 。 这 是 因为 其 特征 的 生成 过 程 基于 人 类 对 语音 工作 的 认 知 , 但 我 们 对 语音 建 模 的 方式 可 
能 是 有 偏见 和 有 限制 的 。 然而 深度 学 习 方法 几乎 不 会 受到 成 见 的 影响 , 且 其 模型 可 以 学 习 到 数据 
固有 的 特征 。 这 就 是 深度 学 习 的 潜力 所 在 。 


12.1.4 ”关于 频谱 图 和 梅 尔 标 度 的 一 些 提醒 


正如 我 们 将 在 下 面 看 到 的 那样 ， 最 新 的 TTS 系统 ( 基于 深度 学 习 或 其 他 方式 ) 使 用 了 一 些 
来 源 于 信号 处 理 领域 的 技巧 。 例如 , 与 直接 预测 波形 相 比 , 我 们 通常 更 喜欢 生成 频谱 图 非 而 非 信 
号 波形 , 最 后 应 用 转换 算法 。 这 样 做 可 以 更 快 地 获得 更 好 的 结果 。 本 节 是 对 频谱 图 的 快速 回顾 ， 
将 帮助 你 理解 本 章 稍 后 将 介绍 的 许多 思想 。 


从 本 质 上 看 ,频谱 图 是 表示 音频 信号 强度 的 一 种 方式 。 它 可 以 在 二 维 图 上 显示 ,其 中 x 轴 代 
表 时 间 ，y 轴 代 表 信 号 的 频率 。 如 果 要 加 上 第 三 个 维度 ， 则 由 热 图 表示 以 指示 特定 时 间 每 个 频率 
的 重要 性 。 通 稼 冷色 用 于 较 小 的 幅 值 ， 而 暖色 则 用 于 较 大 的 幅 值 。 


要 计算 给 定数 字 信和 号 的 频谱 图 ,首先 需要 使 用 短 时 傅 里 时 变换 ( short-time Fourier transform ， 
STFT )。 我 们 可 以 通过 计算 信号 中 连续 帧 的 传 里 叶 变 换 来 获得 STFT: 


STFT(m, w) = > x[njwtn—mlje™’™, 7 =—1 
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其 中 ,，w 是 选择 的 滑动 窗口 。 
接 下 来 就 可 以 获得 频谱 图 了 : 
SPECTRO(m, w) = STFT(m, w) | 
实际 通常 使 用 STFT 的 非 平方 幅 值 ( 即 绝对 幅 值 )。 
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为 了 开发 一 种 更 接近 人 类 感知 声音 的 表示 方式 , 我 们 有 时 倾向 于 采用 梅 尔 标 度 的 频谱 图 。 对 
于 梅 尔 标 度 ，( 听众 ) 感知 到 的 连续 梅 尔 频率 之 间 是 等 距 的 。 它 的 定义 是 基于 主观 实验 建立 的 ， 
人 们 在 实验 中 聆听 不 同 频率 的 声音 ， 然 后 根据 自己 对 音 高 的 感知 程度 来 估计 这 些 声音 之 间 的 距 
离 。 不 同 的 实验 会 定义 出 不 同 的 转换 公式 。 最 受 欢 迎 〈 也 是 我 们 将 要 使 用 ) 的 一 种 是 : 














了 
Mel(f) = 2595xlog10(+ 一 一 
(有) 和 


对 于 喜欢 可 视 化 函数 的 用 户 ， 我 们 为 此 公式 画 出 了 图 形 〈 如 图 12-1 所 示 )， 其 中 x 轴 表 示 频 
率 , 》 轴 表示 梅 尔 频率 。 
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图 12-1 


基本 上 , 频谱 图 的 频率 分 量 通 过 上 述 公 式 转换 为 梅 尔 分 量 。 此 转换 与 合并 操作 一 起 完成 。 在 
合并 操作 中 ,将 三 角形 滤波 器 组 〈 大 个 滤波 器 根据 梅 尔 标 度 间 隔 开 ) 应 用 于 频谱 图 ， 以 便 提 取 有 
限 数量 的 梅 尔 频带 。 


图 12-2 是 该 滤波 器 组 的 示例 ， 其 中 三 角形 滤波 融 共 有 大 = 20 个 。 















































184 第 12 章 使 用 Tacotron 进行 文本 转 语音 








此 外 , 我 们 更 喜欢 对 频谱 图 和 梅 尔 频 谱 图 使 用 分 贝 标 度 ， 因 为 声音 的 幅 值 也 被 人 类 以 对 数 方 


SPECTRO (m,w) = 20xlog10(SPECTRO(m, w)) 


我 们 可 以 使 用 如 图 12-3 所 示 的 音频 信号 (采样 率 为 22 050 Hz ) 来 说 明 这 些 概念 。 





波形 























当 查 看 其 频谱 图 (以 2048 点 计算 出 的 STFT 的 大 小 ) 时 ， 由 于 其 对 数 性 质 ， 我 们 几乎 无 法 
区 分 幅 值 最 大 的 部 分 。 这 就 是 使 用 分 贝 标 度 的 原因 ， 如 图 12-4 所 示 。 
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图 12-4 








当 使 用 分 贝 标 度 时 , 可 视 化 结果 将 会 更 整洁 , 从 而 可 以 很 容易 地 看 出 哪些 频率 随时 间 变 化 幅 
值 最 大 ， 如 图 12-5 所 示 。 
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将 梅 尔 标 度 应 用 于 频率 ， 再 加 上 80- 波 段 滤波 器 组 ， 我 们 可 以 获得 更 简明 的 频谱 图 表示 (〈 如 
图 12-6 所 示 )， 其 优点 是 减少 了 频谱 图 矩阵 的 大 小 并 减少 了 任何 后 续 处 理 步骤 中 的 操作 次 数 。 





梅 尔 频谱 图 (分 贝 ) 
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我 们 现在 已 整装待发 ， 可 以 处 理 接 下 来 的 小 节 了 。 





12.2 ”深度 学 习 中 的 TTS 


在 过 去 的 儿 年 中 , TTS 领域 因 一 些 基 于 深度 学 习 的 突破 而 深 受 影响 。 在 这 里 , 我们 将 介绍 其 
中 两 个 突破 : WaveNet ( 可 能 是 最 出 名 的 一 个 ) 和 Tacotron( 具有 端 到 端 方法 的 优势 )。 
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12.2.1 WaveNet 简 介 

















提出 WaveNet 的 论文 于 2016 年 发 表 ， 显 示 出 的 结果 优 于 传统 的 TTS 方法 。WaveNet 从 根本 
上 来 说 是 音频 生成 模型 ， 以 音频 样本 序列 作为 输入 ,并 预测 最 有 可 能 的 后 续 音频 样本 。 通 过 添加 
额外 输入 ，WaveNet 能 完成 更 多 任务 。 例 如 ， 如 果 在 训练 过 程 中 额外 提供 了 语音 记录 ，WaveNet 
可 以 将 其 转换 为 TTS 系统 。 

WaveNet 使 用 许多 有 趣 的 思想 来 训练 次 层 神经 网 络 ， 主 要 概念 涉及 扩展 因果 卷 积 (请 查阅 其 
论文 以 了 解 更 多 )。 

在 论文 中 ， 该 模型 解决 了 TTS 和 其 他 一 些 任务 。 该 模型 不 是 直接 以 原始 文本 提供 的 ， 而 是 
具有 需要 额外 领域 知识 的 工程 语言 特征 。 因 此 ，WaveNet 并 非 端 到 端的 TTS 模型。 此外, 该 架构 
非常 复杂 ， 需 要 大 量 的 调整 以 及 庞大 的 计算 能 力 ， 才 能 在 相当 长 的 时 间 内 获得 令 人 满意 的 结果 。 

在 北美 英语 和 中 文 普通 话 数据 集 上 对 WaveNet 展开 评估 ， 得 到 MOS 并 将 其 与 级 联 ( 基于 
HMM ) 和 参数 ( 基于 LSTM ) 系统 进行 比较 得 出 如 表 12-1 所 示 结 

































































表 12-1 
北美 英语 MOS 中 文 普 通话 MOS 
WaveNet 4.21 + 0.081 4.08 + 0.085 
参数 系统 3.67 + 0.098 3.79 + 0.084 
级 联系 统 3.86 + 0.137 3.47 + 0.108 











于 我 们 对 TTS 的 端 到 端 模型 更 感 兴趣 ， 因 此 将 重点 关注 一 个 备 受 欢迎 的 模型 














Tacotron 。 





12.2.2 Tacotron 


Tacotron 属于 首 批 端 到 端的 TTS 深度 学 习 模 型 。 它 基本 上 是 一 个 复杂 的 编码 器 -解码 器 模型 ， 
使 用 attention 机 制 在 文本 和 音频 之 间 进 行 对 齐 。 解 码 器 产生 音频 的 频谱 图 ， 然 后 通过 名 为 
Griffin-Lim 算法 的 技术 将 其 转换 为 相应 的 波形 。 


图 12-7 是 其 整体 架构 表示 图 。 我 们 将 在 之 后 的 段落 进行 详细 展示 。 
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将 attention 机 制 应 用 
fi 到 所 有 解码 步骤 中 pre-net pre-net pre-net 
字符 赔 入 <GO> frame 
图 12-7 
1. 编码 器 
编码 器 将 一 系列 字符 作为 输入 ( 每 个 字符 都 由 独 热 向 量 表示 )， 然 后 使 用 嵌入 器 将 输入 投射 











到 连续 的 空间 中 。 请 记 住 ,由 于 独 热 编码 的 高 维 性 和 稀 琉 性 ， 如 果 不 与 利用 该 特性 的 技术 一 起 使 
用 ， 它 可 能 会 导致 计算 效率 低下 。 艇 入 器 可 显著 减 小 表示 空间 的 大 小 。 此 外 , 使 用 误 和 器 可 以 让 
我 们 了 解 词 汇 表 中 不 同 字符 之 间 的 关系 。 


在 舰 入 层 之 后 是 一 个 pre-net， 它 是 一 组 非 线性 变换 。 基 本 上 ， 它 由 两 个 连续 的 全 连 层 组 成 ， 
具有 线性 整流 单元 (ReLU ) 激活 和 随机 失 活 ( dropout )。dropout 是 一 种 正则 化 技术 ， 在 训练 过 
程 中 会 忽略 一 些 随机 选择 的 单位 (或 神经 元 ) 以 避免 过 拟 合 。 实 际 在 训练 过 程 中 ， 某 些 神经 元 会 
发 展 出 相互 依赖 的 关系 ， 从 而 导致 过 拟 合 。 当 带 有 dropout 后 ， 神 经 网 络 倾向 于 学 习 更 为 稳健 的 
特征 。 

第 二 层 全 连接 层 的 单元 数 比 第 一 层 少 一 半 ， 这 有 助 于 收敛 并 提高 泛 化 的 瓶颈 层 。 

Tacotron 团队 在 pre-net 顶部 使 用 称 作 CBHG 的 模块 ， 该 模块 的 名 称 来 自 构 建 它 的 基本 模 
块 : 一 维 卷 积 库 ( convolution bank，CB )， 然 后 是 高 速 公 路 网 络 (highway network，H ) 和 双向 
GRU (G )。 


我 们 使 用 KK 层 一 维 卷 积 滤波 器 ， 形 成 卷 积 库 。 索 引 层 KK 包含 宽度 为 k (k=1,2,…,K) 的 Ce 
个 过 滤器 。 有 了 这 种 结构 ， 我 们 应 该 能 够 为 一 元 语法 和 二 元 语法 等 建 模 。 
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最 大 池 化 在 卷 积 库 之 后 立即 使 用 。 这 是 一 种 降 采 样 技术 , 通常 在 卷 积 神经 网 络 (CNN ) 中 使 
用 ， 能 使 得 学 习 到 的 特征 局 部 不 变 。 在 这 里 将 其 步 长 设置 为 1 以 保持 时 间 分 辨 率 。 




















论文 “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate 
Shift” 中 的 技术 提高 了 神经 网 络 的 性 能 和 稳定 性 ， 因 此 在 CBHG 中 的 所 有 卷 积 层 都 有 所 使 用 。 
该 方法 修改 层 的 输入 ， 以 使 激活 给 出 的 输出 的 平均 值 为 0， 标准 偏差 为 1。 众所周知 ， 该 做 法 可 
以 帮助 网 络 更 快 地 收敛 , 在 深度 网 络 中 得 到 更 高 的 学 习 率 (因此 朝 着 一 个 好 的 最 小 值 迈 出 更 大 的 
步伐 )， 从 而 减轻 网 络 对 权重 初始 化 的 敏感 性 ， 并 通过 提供 一 些 噪声 来 增加 额外 的 正则 化 。 


在 最 大 池 化 层 之 后 ， 我 们 使 用 了 两 个 补充 的 一 维 卷 积 层 ( 分别 具 有 ReLU 和 线性 激活 )。 残 
差 连接 将 初始 输入 与 第 二 个 卷 积 层 的 输出 绑 定 在 一 起 。 深 度 网 络 允许 捕获 数据 中 的 更 多 复杂 性 ， 
并 且 在 给 定 任务 上 具有 比 浅 层 网 络 更 好 的 性 能 。 但 是 总 的 来 说 ,梯度 会 随 着 深层 网 络 消失 ， 而 
残 差 连接 可 更 好 地 传播 梯度 。 


因此 ， 以 上 架构 将 能 极 大 提升 深度 模型 的 训练 效果 ， 如 图 12-8 所 示 。 
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图 12-8 


CBHG 的 下 一 个 块 是 高 速 公路 网 络 ， 它 也 具有 类 似 的 作用 。 











为 了 最 终 确 定 CBHG 模块 以 及 编码 器 , 我 们 使 用 双向 GRU 从 向 前 和 向 后 上 下 文中 学 习 序列 
中 的 长 期 依赖 关系 。attention 层 将 使 用 编码 器 输出 ， 如 图 12-9 所 示 。 
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2. 基于 attention 的 解码 器 
此 处 ,解码 器 在 编码 右 的 输出 上 使 用 attention 机 制 ， 
对 于 每 个 小 批量 数据 ， 解 码 器 都 被 提供 一 个 GO 帧 ， 



































pre-net 之 后 是 单 层 GRU ， 其 输出 将 与 编码 器 的 输出 连 





以 生成 梅 尔 频谱 图 帧 。 


该 帧 仅 包含 0 作为 输入 。 接 着 ， 对 于 每 
个 时 间 步 ， 网 络 将 先前 预测 的 梅 尔 频谱 图 帧 用 作 输入 ， 馈 送 到 与 解码 器 中 相同 架构 的 pre-net。 











车 接 在 一 起 ， 从 而 通过 attention 机 制 生 








成 上 下 文 向 量 。 随 后 ，GRU 输出 也 将 与 上 下 文身 量 连接 ， 以 生成 解码 右 RNN 块 的 输入 。 
正如 Wu 等 人 的 论文 “Google’s Neural Machine Translation System: Bridging the Gap between 


Human and Machine Translation” 所 提 到 的 ， 解 码 器 RNN 


在 该 论文 中 , 他 们 使 用 了 一 种 更 为 复杂 的 残 差 连接 。 实 际 








上 ,我 们 不 仅 将 








是 使 用 垂直 残 差 连接 的 两 层 残 差 GRU。 


最 后 一 层 的 输出 添加 到 





初始 输入 中 , 还 在 每 一 层 上 将 其 输出 添加 到 其 输入 中 , 并 将 添加 的 结果 用 作 下 一 层 的 输入 ， 如 图 


12-10 所 示 。 





x 


y=GRUI(xX)+x 


GRU2(y) | GRU 层 


z=GRU20Q) +y 














图 12-10 
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解码 器 RNN 模块 生成 x 个 梅 尔 频谱 图 帧 。 在 下 一 个 时 间 步 中 ，pre-net 仅 使 用 最 后 一 个 。 之 
所 以 选择 生成 > 帧 ， 而 非 每 个 时 间 步 一 个 ， 是 因为 编码 器 输入 中 的 一 个 字符 通常 对 应 于 多 帧 。 因 
此 ,通过 和 输出 一 帧 ,我 们 迫使 模型 在 多 个 时 间 步 长 上 使 用 相同 的 输入 元 素 ， 从 而 减 慢 了 训练 期 间 
的 attention。 论 文中 提 到 了 x=2 和 r=3 的 值 ， 其 中 x 的 增加 也 会 减少 模型 的 大 小 和 推理 时 间 。 


3. 基于 Griffin-Lim 的 后 处 理 模块 
后 处 理 模 块 的 目的 是 将 预测 到 的 梅 尔 频谱 图 帧 转换 为 相应 的 波形 。 


在 预测 得 到 的 梅 尔 频谱 图 帧 的 顶部， 我 们 使 用 了 _ CBHG 模块 来 提取 后 向 和 前 向 特征 
归功 于 最 后 的 双向 GRU ) 并 纠正 预测 帧 中 的 错误 ， 据 此 可 以 预测 得 到 原始 频谱 图 。 

虽然 频谱 图 是 表示 语音 的 好 方法 , 但 它 缺 少 有 关 相 位 的 信息 。 幸 运 的 是 ,我 们 有 信和 号 处 理 算 
法 (例如 Griffin-Lim ) 可 以 通过 估计 频谱 图 的 相位 来 推理 可 能 的 语音 波形 。 该 方法 通过 迭代 式 
查找 以 得 到 STFT 幅度 最 接近 生成 频谱 图 的 波形 。 

4. 架构 细节 

我 们 将 Adam 优化 器 配 以 特定 的 学 习 率 。 实 际 上 ， 学 习 率 在 初始 值 0.001 之 后 ， 在 经 过 50 
万 、100 万 和 200 万 个 全 局 步 长 后 将 分 别 降低 到 0.0005 、0.0003 和 0.0001。 一 个 步骤 就 是 一 个 梯 
度 更 新 ， 不 应 将 其 与 周期 相 混淆 ， 后 者 是 整个 训练 数据 集 上 梯度 更 新 的 完整 过 程 。 

我 们 将 对 于 预测 梅 尔 频谱 图 的 编码 器 -解码 器 和 预测 频谱 图 的 后 处 理 块 应 用 L1 损失 。 

5. 局 限 性 

Tacotron 的 主要 贡献 无 疑 是 提供 了 可 理解 日 具 有 自然 性 的 、 基 于 深度 学 习 的 端 到 端 TTS 系统 。 
实际 上 ，Tacotron 的 自然 性 是 通过 MOS 评估 的 。 我 们 将 其 与 最 先进 的 参数 系统 和 最 先进 的 级 联 
系统 ( 与 WaveNet 论文 中 的 相同 ) 进行 比较 ( 如 表 12-2 所 示 )。 虽然 不 如 级 联系 统 自然 , 但 它 仍 
击败 了 参数 系统 。 请 注意 ，MOS 是 在 北美 英语 数据 集 上 评估 的 。 
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这 要 


















































































































































表 12-2 
北美 英语 平均 意见 得 分 
Tacotron 3.82 + 0.085 
参数 系统 3.69 + 0.109 
级 联系 统 4.09 + 0.119 

















但 要 记 住 的 是 ，Tacotron 具有 许多 简单 的 设计 选择 。 例 如 ，Griffin-Lim 重建 算法 既 轻 巧 又 简 
单 ， 但 会 造成 干扰 ， 对 自然 性 产生 负面 影响 。 使 用 更 强大 的 技术 来 替换 这 一 部 分 的 管道 可 能 会 进 
一 步 增加 MOS。 我 们 还 可 以 对 许多 其 他 部 分 进行 调整 和 改进 : 模型 的 超 参数 、attention 机 制 、 学 
习 率 计划 表 、 损 失 函 数 ， 等 等 。 


现在 我 们 已 充分 了 解 Tacotron 的 运行 机 制 ， 可 以 去 实现 代码 了 。 
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本 节 将 通过 在 TensorFlow 上 使 月 


























在 此 处 被 重新 实现 。 











我 们 将 使 用 Keras 2.1.5， 配 有 TensorFlow 1.6.0 作为 其 后 端 。 
下 面 介绍 代码 库 的 组 织 方式 。 











口 /model 文件 夹 包含 : 


口 /data 文件 夹 包含 原始 




















数据 集 ， 并 将 通过 几 个 处 到 





步骤 进行 增强 。 


@ building blocks.py， 它 定义 了 Tacotron 模型 的 所 有 基本 单元 ; 
昌 tacotron modelpy， 它 将 创建 Tacotron 模型 。 
口 /processing 文件 夹 包含 : 
proc_audio.py， 它 提供 音频 处 理 功 能 ， 使 我 们 能 够 将 波形 转换 为 频谱 图 ; 
四 proc_textpy， 它 允许 将 原始 转录 文本 转换 为 更 适合 深度 学 习 的 格式 。 
口 /results 文件 夹 将 包含 训练 好 的 模型 ， 并 记录 它们 的 损失 : 
四 ]_create_ audio_dataset.py， 它 生成 训练 和 测试 音频 数据 (模型 目标 ) ; 
四 2_create text datasetpy， 它 生成 训练 和 测试 文本 数据 ( 模型 输入 ) ; 
@ 3_train.py， 它 使 用 训练 数据 训练 模型 ， 并 保存 模型 及 损失 历史 记录 ; 
4 testpy， 它 在 测试 数据 集 的 选 定 项 目 上 测试 最 后 训练 的 模型 ; 
昌 COnstants.py， 它 包含 所 有 必需 的 常量 。 




















表 12-3 展示 了 此 项 目 使 月 





pip install 被 触发 时 会 自动 安装 它们 。 











日 Keras 展示 Tacotron 的 实现 。Keras 与 原始 TensorFlow 相 比 
的 优势 在 于 更 快 的 原型 制作 和 高 度 模块 化 。 但 就 灵活 性 而 言 , TensorFlow 还 是 比 Keras 更 好 一 些 ， 
尽管 更 难 学 习 。 目 前 ，TensorFlow 还 提供 了 更 多 内 置 功能 (例如 attention 机 制 )， 其 中 一 些 将 会 


的 最 为 重要 的 Python 模块 。 我 们 没有 提 到 不 同 的 依赖 项 ， 因 为 当 




























































































表 12-3 

模块 名 称 描 述 
pandas ] 于 数据 读 入 、 处 理 和 分 析 
NumPy 提供 用 于 科学 计算 的 数据 结构 和 方法 
Scikit-learn 包含 许多 关于 机 器 学 习 的 处 理 方法 
TensorFlow 本 章 中 用 作 Keras 后 端的 深度 学 习 框 架 

Keras 用 于 设计 神经 网 络 的 简单 、 模 块 化 的 高 层 API 
Librosa 提供 音频 处 理 函数 

tqdm 允许 显示 进度 条 以 跟踪 for 循环 的 演变 


Matplotlib 

















可 用 于 可 视 化 预 估 和 实际 频谱 图 、 波 形 
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12.3.1 数据 集 
我 们 将 使 用 LJ 语音 数据 集 来 执行 此 任务 。 它 包含 13 100 个 .wav 录音 及 其 相应 的 转录 文本 。 
转录 文本 有 其 原始 格式 和 规范 化 格式 。 在 转录 文本 的 规范 化 版 本 中 ， 数 是 用 完整 的 单词 写成 的 。 
录音 采用 相同 的 声音 制作 。 音 频 内 容 的 总 长 度 约 为 24 小 时 ,采样 时 间 可 持续 1 秒 到 7 秒 。 
该 数据 集 属于 公共 领域 ， 并 无 使 用 限制 。 














Ei 注意 ， 该 数据 集 下 载 并 解压 缩 后 将 占据 磁盘 3.8 GB 的 空间 。 


数据 集 文件 夹 中 有 一 个 名 为 metadata.csy 的 CSV 文件 、 一 个 README 文件 和 一 个 包含 .wav 
音频 文件 的 文件 夹 /wavs。metadata.csv 由 三 列 组 成 , 共 13 100 行 。 第 一 列 给 出 了 相应 的 .wav 文件 
的 名 称 ， 其 他 两 列 分 别 给 出 了 原始 和 标准 化 的 转录 文本 ， 如 图 12-11 所 示 。 














0 1 2 
LJ001- Printing, in the only sense Printing, in the only sense 
0001 With which we are .… with which we are ... 
1 LJ001- in being comparatively in being comparatively 
0002 modern. modern. 
LJ001- Foralthough the Chinese took For although the Chinese took 
0003 impressions from... impressions from... 

图 12-11 





下 载 完 毕 后 ， 应 将 包含 数据 的 ZIP 文件 解压 缩 到 /data 目录 下 。 


12.3.2 ”数据 准备 


为 了 训练 Tacotron ， 我 们 需要 在 此 数据 集 上 应 用 几 个 预 处 理 步 又。 首先 必须 在 metadata.csv 
中 准备 规范 化 的 文本 数据 , 使 其 具有 正确 的 形状 以 用 作 编 码 器 的 输入 。 同 样 , 我们 应 该 提取 分 别 
由 解码 器 和 CBHG 后 处 理 模块 输出 的 梅 尔 频谱 图 和 幅度 频谱 图 。 


可 以 使 用 pandas read_csv 加 载 数据 。 我 们 需要 考虑 以 下 事实 : CSV 文件 不 包含 任何 标题 ， 
使 用 竖 线 字符 分 隔 各 列 ， 并 且 包 含 未 结束 的 引号 〈 转录 下 来 的 并 不 总 是 完整 的 句子 ): 


metadata = pd.read_csv('data/LJSpeech-1.1/metadata.csv', 
dtype='object', quoting=3, sep='|', 
header=None) 
我 们 决定 将 90% 的 数据 (117.9 亿 项 ) 用 于 训练 ， 而 将 其 余 10% 的 数据 ( 1.31 亿 项 ) 用 于 测 
试 。 该 比例 可 以 任意 选择 ， 我 们 将 定义 一 个 变量 TRAIN_SET_RATIO， 你 可 以 用 其 进行 调整 












































TRAIN_SET_RATIO = 0.9 
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1. 文本 数据 准备 

与 典型 NLP 任务 情况 一 样 ， 所 有 字符 串 都 将 被 转换 为 小 写 。 由 于 模型 将 考虑 字符 序列 〈 而 
非 单词 序列 )， 我 们 将 训练 词汇 表 作为 数据 集 使 用 的 唯一 字符 集 。 我 们 将 添加 一 个 与 填充 相对 应 
的 字符 P， 因 为 需要 定义 一 个 固定 的 输入 长 度 NB_CHARS_MAX， 并 用 填充 字符 补 满 长 度 不 足 的 字 
符 串 。 


list_of _ existing_ chars = list(set (texts.str.cat (sep=' '))) 
Vocabulary = ''.join(list_ of existing_ chars) 
Vvocabulary += 'P' # 添加 填充 字符 


任意 字符 都 将 用 一 个 整数 进行 标识 : 


# 在 词汇 和 ID 之 间 建 立 连 接 
vocabulary_id = {} 























1 











过 < 

for char in list(vocabulary): 
vocabulary_id[char] = i 
定 7 二 三 一 下 


现在 ， 我 们 已 准备 好 转换 文本 数据 。 定 义 一 个 函数 transform_text_for_ml ， 它 接受 字 
符 串 列 表 1ist_of _strings (其 中 每 个 字符 串 都 是 转录 文本 )、 字 典 vocapulary_igds (用 以 
将 词汇 表 中 的 字符 映射 为 整数 ) 以 及 每 个 转录 文本 的 最 大 字符 数 max_length。 此 函数 将 转录 文 
本 转换 为 字符 列表 ( 按照 其 出 现 顺序 )， 并 根据 需要 添加 尽 可 能 多 的 填充 字符 ( 以 便 使 句子 有 
max_length 个 字符 ): 


def transform text_for ml (list_ of_ strings, vocabulary_ids, max_length): 
transformed_data = [] 





for string in tadm(list_of_ strings): 
list_of_ char = list (string) 
list_of_char_id = [vocabulary_ids[char] for char in list_of_char] 


nb_char = len(list_of_char_id) 


# 填充 达到 固定 输入 长 度 
if nb_char < max_length: 
for i in range(max_length - nb_char): 
list_of_char_id.append(vocabulary_ids['P']) 
transformed_ data.append (list_of_char_id) 


ml_input_training = np.array (transformed_ data) 
return ml_input_training 

我 们 现在 可 以 应 用 这 个 处 理 函 数 了 : 

text_input_ ml = transform text_for ml (texts.values, 


vocabulary_id, 
NB_CHARS_MAX) 
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Python 脚本 2_create_text_dataset.py 将 加 载 文本 数据 并 对 其 进行 处 理 ( 如 前 所 示 ), 将 结 





为 训练 集 和 测试 集 并 都 转 储 为 pickle 文件 。 同 时 ,脚本 还 保存 了 用 于 映射 字符 及 其 关联 整数 的 词 








汇 表 : 


# 划分 为 训练 集 和 测试 集 

Jen train = int(TRAIN_SET_RATIO * len(metadata) ) 
text_input_ml training = text_input_ ml[:len train] 
text_input_ml_ testing = text_input_ml[len train:] 





# 保存 数据 

joblib.dump (text_input_ml training, 'data/text_input_ ml_ training.pkl') 
joblib.dump (text_input_ ml testing, 'data/text_input_ ml testing.pkl') 
joblib.dump (vocabulary_id, '‘'data/vocabulary .pkl') 

2. 语音 数据 准备 

本 节 将 使 用 信号 处 理 领 域 的 许多 术语 ， 我 们 将 解释 其 中 的 一 部 分 ， 其 余部 分 则 不 作 要 求 。 














本 书本 身 就 是 关于 深度 学 习 的 ， 我 们 鼓励 好 奇 的 读者 对 尚未 完全 解释 的 信和 号 处 理 概念 进行 深入 


研究 。 


我 们 将 使 用 如 表 12-4 所 示 的 〈 从 论文 中 获得 的 ) 参数 进行 .wav 文件 的 光谱 分 析 和 处 理 。 


































































































表 12-4 

变 量 名 描 述 值 
N_FFT 址 里 叶 变 换 点 数 1024 
PREEMPHASIS 预 加 重 技术 的 参数 ， 更 加 重视 信号 中 0.97 

的 高 频 分 量 

SAMPLING_RATE 采样 率 16 000 
WINDOW_TYPE 用 于 计算 傅 里 叶 变 换 的 窗口 类 型 ‘hann’ 
FRAME_LENGTH 窗口 长 度 50 ms 
FRAME_SHIFT 时 移 12.5 ms 
N_mels 梅 尔 波段 数 80 
下 衰减 系数 5 


尽管 音频 信号 的 原始 采样 率 为 22.05 kHz, 我 ] 数据 处 理 时 还 是 决定 使 用 16 kHz， 
这 样 可 以 减少 计算 操作 的 数量 。 此 外 ， 论 文中 建议 的 傅 里 叶 变 换 点 数 为 2048， 
而 我 们 在 这 里 使 用 1024 点 ， 以 进一步 减轻 任务 负担 。 





Tacotron 模型 优化 了 两 个 目标 函数 : 一 个 用 于 从 解码 器 RNN 输出 的 梅 尔 频谱 图 ， 男 一 个 用 





于 CBHG 后 处 理应 用 梅 尔 频谱 图 所 给 出 的 频谱 图 输出 。 因 此 我 们 需要 准备 这 两 种 类 型 的 输出 。 
从 .wav 文 件 的 路 径 下 返回 信号 的 频谱 图 和 梅 尔 频谱 图 : 
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def get_spectros (filepath, preemphasis, n_fft, 
hop_length, win_ length, 
sampling_rate, n mel, 
ref_db, max_db): 
waveform, sampling_rate = librosa.load(filepath, 
sr=sampling_rate) 


waveform, _ = librosa.effects.trim(waveform) 


# 使 用 预 加 重 滤 除 较 低 频率 
waveform = np.appendq(waveform[0]， 
waveform[1:] - preemphasis * waveform[:-1]) 


# 计算 stft 

stft_ matrix = librosa.stft (y=waveform, 
Mt 
hop_length=hop_length, 
win_ length=win lengthy) 


# 计算 幅 值 和 梅 尔 频谱 图 


spectro = np.abs (stft_matrix) 


mel_ transform matrix = librosa.filters.mel (sampling_ rate, 
nn 
n_mel, 
htk=True) 

mel_spectro = np.dot (mel_transform matrix, 

spectro) 


# 使 用 分 贝 标 度 
mel_spectro = 20 * np.logl0 (np.maximum(1le-5, mel_spectro)) 
spectro = 20 * np.logl0 (np.maximum(1e-5, spectro)) 


# 标准 化 频谱 图 


mel_spectro = np.clip((mel_spectro - ref_ db + max_db) / max_db, le-8, 





spectro = np.clip((spectro - ref_db + max_db) / max_db, le-8, 1) 


# 将 频谱 图 转 置 ， 使 得 时 间 为 第 一 维 ， 

# 频率 为 第 二 维 

mel_spectro = mel_spectro.T.astype (np.float32) 
spectro = spectro.T.astype (np.float32) 





return mel_spectro, spectro 


如 果 频 谱 图 的 总 长 度 不 是 的 倍数 ， 则 需要 填充 频谱 图 的 时 间 维 度 ， 从 而 使 其 满足 要 求 : 


def get_padded spectros (filepath): 
filename = os.path.basename (filepath) 
mel_spectro, spectro = get_spectros (filepath) 

t = mel_spectro.shape[0] 

















nb paddings = 工 - (t r) if t %$r != 0 else 0 # for reduction 
mel_spectro = np.pad(mel_spectro, 
[[0, nb paddings], [0, 0]], 


mode="constant") 
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spectro = np.pad(spectro, 
[[0, nb_paddings], [0, 0]], 
mode="constant") 

return filename, mel_spectro.reshape((-1, N_mel 


* r)), spectro 





通过 1_create audio_ dataset.py 脚本 将 get_padded_spectros 应 用 于 数据 集 的 所 有 .wav 文 


件 。 它 会 将 所 有 频谱 图 和 梅 尔 频谱 图 生成 为 数组 以 及 解码 器 的 输入 , 并 将 这 三 个 数组 分 成 训练 集 





和 测试 集 ， 就 像 对 处 理 后 的 文本 数据 所 做 的 那样 。 


请 注意 ， 运 行 脚本 可 能 需要 很 长 时 间 ( 最 多 几 个 小 时 )， 
序列 化 的 原因 。 这 样 就 不 需要 每 次 试图 训练 模型 时 都 重新 处 到 

















项 


这 就 是 还 要 对 所 得 数据 进行 pickle 
文件 了 。 





12.3.3 ”架构 实现 


当 数据 准备 就 绪 后 ,我 们 就 可 以 构建 模型 了 。 我们 将 从 实现 网 络 构建 模块 开始 ,然后 将 它们 


结合 起 来 。 整 个 过 程 都 是 在 /model 中 完成 的 。 


1. pre-net 


如 论文 中 所 述 , 我们 将 实现 pre-net 块 ， 编 码 器 和 解码 需 中 都 会 用 到 它 。Keras 的 简单 性 和 模 


块 化 使 得 此 部 分 非常 简单 : 


def get_pre_net (input_data): 
prenet=Dense (256) (input_data) 
prenet=Activation('relu') (prenet) 
prenet=Dropout (0.5) (prenet) 
prenet=Dense(128) (prenet) 
prenet=Activation('relu') (prenet) 
prenet=Dropout (0.5) (prenet) 
return prenet 


2. 编码 器 和 CBHG 后 处 理 





为 了 准备 CBHG 模块 的 代码 ， 我 们 首先 实现 它 的 两 个 主要 基本 单元 一 一 一 维 卷 积 库 和 高 速 


公路 网 络 : 


def get_convldbank (K_, input_data): 
Conv=Conv1D (filters=128, kernel_ size=1, 


strides=1,padding='same') (input_data) 


conv=BatchNormalization() (conv) 
conv=Activation('relu') (conv) 


for k_ in range(2,K_ +1): 
Conv=Conv1D (filters=128, kernel_ size=k_ ,， 
strides=1,padding='same') (conv) 
conv=BatchNormalization() (conv) 
conv=Activation('relu') (conv) 


return ConV 
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现 。 
高 速 


王 


高 速 


只 编写 





对 于 Keras 2， 其 开发 团队 决定 删除 高 速 公路 网 络 ， 可 能 是 因为 它们 很 少 被 用 到 并 且 容 易 实 
因为 我 们 使 用 的 是 Keras 2， 所 以 需要 显 式 地 编写 自己 的 高 速 公 路 层 。 我 们 根据 先前 引用 的 
路 网 络 论文 来 定义 get_highway_output 函数 : 给 定 输 入 张 量 highway_input 时 ,返回 


























nb_layers 层 定 义 的 高 速 公 路 网 络 的 输出 、 激 活 函 数 activation 和 initial_bias (根据 








公路 网 络 的 论文 ，initial bias 通常 为 -1 或 -3 ): 


def get_highway_output (highway_input, nb_layers, activation="relu", 
biass -3)3 
dim = K.int_shape (highway_input)[-1] # 维度 必须 相同 
initial bias = k_init.Constant (bias) 
for n in range (npb_1ayers) : 
H = Dense(units=dim, bias_initializer=initial bias) (highway_input) 
H Activation("sigmoid") (H) 
carry_gate = Lambda(lambda x: 1.0 - x, 
output_shape= (dim, ) ) (H) 
transform gate = Dense(units=dim) (highway_input) 
transform gate = Activation(activation) (transform gate) 











transformed = Multiply() ([H, transform gatel]) 
carried = Multiply() ([carry_gate, highway_input]) 
highway_output = Add() ([transformed, carried]) 


return highway_output 


2 Se CBHG 模块 。 编 码 器 和 后 处 理 CBHG 的 体系 结构 略 有 不 同 。 虽 然 可 以 
带 有 额外 输入 参数 的 函数 ， 我 们 还 是 决定 编写 两 个 不 同 的 函数 ， 以 提高 代码 可 读 性 : 


def get_CBHG_ encoder (input_data, K_CBHG): 

convildbank = get_convidbank (K_CBHG, input_data) 

convildbank = MaxPoolinglD(pool_ size=2, strides=1, 
padding='same') (convldbank) 
convildbank = ConviD(filters=128, kernel_size=3, 
strides=1, padding='same') (convldbank) 
convildbank = BatchNormalization() (convldbank) 
convildbank = Activation('relu') (convldbank) 
convidbank = ConviD(filters=128, kernel_ size=3, 
strides=1, padding='same') (convldbank) 
convildbank = BatchNormalization() (convldbank) 




















residual = Add() ([input_data, convldbank]) 
highway_net = get_highway_output (residual, 4, activation='relu') 
CBHG_encoder = Bidirectional (GRU(128, 
return_ sequences=True)) (highway_net) 
return CBHG_encoder 
def get_CBHG post_process (input_data, K_CBHG): 
convildbank = get_convldbank (K_CBHG, input_data) 


convildbank = MaxPoolinglD(pool_size=2, strides=1, 
padding='same') (convldbank) 
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convildbank = ConviD(filters=256, kernel_size=3, 

strides=1, padding='same') (convldbank) 
convildbank = BatchNormalization() (convldbank) 
convidbank = Activation('relu') (convldbank) 
convildbank = ConvilD(filters=80, kernel_size=3, 

strides=1, padding='same') (convldbank) 
convidbank = BatchNormalization() (convldbank) 


residual = Add() ([input_data, convldbank]) 
highway_net = get_ highway_output (residual, 4, activation='relu') 
CBHG_post_proc = Bidirectional (GRU(128)) (highway_net) 
return CBHG_ post_proc 
3. attention RNN 
如 前 所 述 ，attention RNN 是 一 个 简单 的 单 层 GRU。 按 照 论文 的 定义 ， 它 包含 256 个 单位 。 


为 其 定义 一 个 函数 看 起 来 是 大 材 小 用 , 但 这 可 以 提高 代码 的 可 读 性 , 尤其 是 因为 我 们 已 经 使 用 论 
文中 的 术语 描述 了 该 架构 : 


def get_attention RNN(): 
return GRU(256) 











4. 解码 器 RNN 
解码 器 RNN 是 具有 垂直 残留 连接 的 双 层 GRU ( 如 前 所 述 ): 


def get_decoder_RNN_ output (input_data): 
rnnl = GRU(256, return sequences=True) (input_data) 




















inp2 = Add() ([input_data, rnn1l]) 
rnn2 = GRU(256) (inp2) 
decoder_rnn = Add() ([inp2, rnn2]) 


return decoder_rnn 


请 注意 , 在 定义 第 一 个 GRU 层 时 必须 使 用 return_sequences = True。 这 样 ， 
对 于 每 个 输入 时 间 步 长 , 将 返回 一 个 输出 。 此 时 给 定 一 个 序列 作为 输入 ,第 一 个 

i GRU 也 将 输出 一 个 序列 。 如 果 不 这 样 做 , 则 第 一 个 GRU 对 于 整个 输入 序列 仅 会 
返回 一 个 输出 ， 而 第 二 个 GRU 期 望 以 序列 作为 输入 。 





5. attention 机 制 

网 络 首 先 将 基于 CBHG 编码 需 的 双向 GRU 层 生 成 的 输出 向 量 与 attention RNN 的 输出 进行 级 
联 , 获得 attention 上 下 文 。 然后 , 将 结果 向 量 馈 入 tanh 激活 的 密集 层 , 在 这 之 后 是 另 一 个 密集 层 ， 
而 softmax 层 人 允许 通过 与 编码 需 输 出 向 量 的 点 乘积 来 获得 给 出 attention 上 下 文 的 激活 权重 : 











出 
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def get_attention context (encoder_output,attention rnn output): 

attention input=Concatenate(axis=-1) ([encoder_output, 
attention rnn_ output]) 
e=Dense(10, activation = "tanh") (attention input) 
energies=Dense(1, activation = "relu") (e) 
attention weights=Activation('softmax') (energies) 
context=Dot (axes = 1) ([attention weights, 
encoder_output]) 

return context 


6. 带 有 attention 的 完整 架构 
现在 来 将 先前 定义 的 函数 结合 起 来 以 形成 完整 的 Tacotron 模型 。 
不 过 首先 需要 定义 网 络 的 一 些 特征 参数 . 


NB_CHARS_MAX = 200 # 输入 文本 最 大 长 度 
EMBEDDING_SIZE = 256 





K1 = 16 # 在 编码 器 CBHGH 中 一 维 卷 积 块 个 数 
K2 = 8 # 在 后 处 理 CBHGH 中 一 维 卷 积 块 个 数 


BATCH_SIZE = 32 


注意 ， 模 型 分 别 由 两 个 输入 对 象 和 两 个 输出 对 象 定义 。 








这 两 个 输入 对 象 分 别 对 应 于 编码 器 输入 和 人 解码 器 输入 。 前 者 应 为 输入 文本 , 而 后 者 应 该 是 解 
码 嚣 在 CBHG 后 处 理 前 所 预测 的 x 帧 中 最 后 一 个 梅 尔 频谱 图 帧 ,解码 器 输入 的 第 一 帧 被 填充 为 0， 
如 论文 中 所 示 。 


输出 对 应 于 解码 器 RNN 预测 的 梅 尔 标 度 频 谱 图 和 CBHG 后 处 理 模块 预测 的 频谱 图 : 


def get_tacotron model(n mels, r, ki1, k2, nb_char_max, 
embedding_size, mel time_ length, 
mag_time_length, n_fft, 
vocabulary): 














# 编码 器 
input_encoder = Input (shape= (nb_char_max, )) 


embedded = Embedding (input_dim=len(vocabulary), 
output_dim=embedding_size, 
input_length=nb_char_max) (input_encoder) 
prenet_encoding = get_pre net (embedded) 





cbhhg_encoding = get_CBHG_ encoder (prenet_encoding, 
k1) 








# 解码 器 第 一 部 分 一 一 prenet 
input_decoder = Input (shape= (None, n_mels)) 
prenet_decoding = get_pre net (input_decoder) 
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井 


attention 
ttention rnn_output_repeated = 
nb_char_max) (attention 


oy 





attention rnn output_repeated) 


rnn_output) 


attention rnn output = get_attention RNN() (prenet_decoding) 


RepeatVector ( 


attention context = get_attention context (cbhhg_encoding, 


context_shapel = int(attention context.shape[1]) 
context_shape2 = int (attention context.shape[2]) 





attention rnn output_reshaped = 





Reshape( (context_shapel, 


context_shape2)) (attention_ rnn_output) 


# 解码 器 第 二 部 分 


input_of_decoder_rnn = concatenate 人 
[attention context, attention rnn output_reshaped]) 


input_of_decoder_rnn projected = 





Dense(256) (input_of_decoder_rnn) 


output_of_decoder_rnn = get_decoder_ RNN_ output\( 


input_of_decoder_rnn projected) 











# mel_hat=TimeDistributed(Dense(n mels*r)) (output_of_decoder_rnn) 
mel_hat = Dense(mel time length * n mels * r) (output_of_decoder_rnn) 
mel_ hat_ = Reshape((mel time length, n mels * r)) (mel_hat) 
def slice(x): 
return x[:, :, -n_mels:] 
mel_hat_last_frame = Lambda(slice) (mel_hat_) 
post_process_output = get_CBHG post_process(mel hat_last_frame, 
k2) 
z_hat = Dense (mag time_ length * (1 + n_fft // 2)) (post_process_output) 
z_hat_ = Reshape((mag time length, (1 + n_fft // 2)))(z_hat) 
model = Model (inputs=[input_encoder, input_decoder], 
outputs=[mel_hat_, z_hat_]) 
return model 








然后 就 可 以 编译 模型 了 。 由 于 定义 了 两 个 输出 对 象 , 我 们 需要 两 个 损失 函数 。 论 文中 选取 了 


两 个 L1 损失 ， 并 | 
数 会 被 配置 好 以 用 作 优化 器 。 为 了 简单 起 见 ,， 我 们 决定 不 遵循 论文 中 所 使 用 的 学 习 率 计划 , 但 
鼓励 你 尝试 更 高 





opt = Adam 
model .comp 


12.3.4 ”训练 














级 的 设置 : 
0 


ile(optimizer=opt, 
loss=['mean absolute_error', 'mean absolute_error']) 





与 测试 

















完成 上 述 步骤 后 ， 可 以 通过 3_train.py 和 4 test.py 进行 训练 和 测试 。 


日 其 权重 相等 ， 我 们 也 决定 沿用 该 选择 。 此 外 ， 在 默认 情况 下 ，Adam 及 其 参 


日 
全 
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第 一 个 脚本 在 准备 好 的 训练 集 上 对 Tacotron 模型 训练 了 NB_EPocHS 个 周期 ， 并 将 模型 存储 
在 了 /results 文件 夹 下 。 

第 二 个 脚本 允许 用 户 将 先前 保存 的 模型 应 用 于 测试 数据 集 的 任何 副本 。 通 过 变量 
item_index 选择 要 预测 的 音频 ， 该 变量 应 包含 所 需 项 目的 索引 ( 在 测试 数据 集中 )。 

然后 ， 通 过 Griffin-Lim 算法 将 估算 的 频谱 图 转换 为 波形 。 转 换 函 数 from_spectro_to_ 
waveform 是 在 /processing/proc_audio.py 文件 中 定义 的 。 

我 们 强烈 建议 你 更 改 代 码 库 的 默认 设置 , 尝试 更 高 级 的 方法 ,以 提高 生成 波形 的 质量 或 模型 
的 收敛 速度 。 
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本 章 概述 了 TTS 领域 , 解释 了 良好 TTS 系统 应 遵循 的 标准 ， 并 探索 了 传统 TTS 方法 的 冰山 
一 角 。 

然后 , 我 们 提出 了 一 种 最 新 的 、 端 到 端的 深度 学 习 方法 Tacotron 并 在 本 章 末 尾 对 其 进行 了 实 
现 ， 同 时 给 出 了 在 适应 该 问题 的 开源 数据 集 上 对 该 模型 进行 实验 的 指导 和 说 明 。 

在 12.3 节 中 ， 我 们 看 到 了 Keras 简化 看 似 复 杂 的 神经 网 络 构建 过 程 。 但 是 ， 制 作 原型 是 一 
回 事 ， 而 扩大 规模 却 是 另 一 回 事 。 实 际 上 ， 即 使 验证 概念 能 在 计算 机 上 顺利 运行 ， 但 由 于 多 种 
原因 (例如 吞吐 量 ), 设法 使 它 在 不 同 平台 ( 网络 和 移动 平台 ) 上 供 大 量 用户 使 用 也 可 能 具有 挑 
战 性 。 


下 一 章 会 解决 将 深度 学 习 模 型 交付 到 生产 环境 的 问题 。 
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在 本 章 中 ， 你 将 学 习 如 何 将 训练 好 的 深度 学 习 模 型 部 署 到 各 种 平台 ( 例如 云 和 移动 设备 等 ) 
上 的 生产 环境 中 。 对 于 云 部 署 ， 延迟 和 否 叶 量 很 重要 : 它 要 求 延 迟 达 到 最 小 ， 且 同时 吞吐 量 必须 
很 高 。 模 型 部 署 后 的 性 能 在 很 大 程度 上 取决 于 其 自身 和 硬件 。 现 在 有 多 种 针对 CPU 和 GPU 的 优 
化 方法 。 对 于 移动 平台 而 言 ， 速 度 和 能 耗 都 很 重要 。 

在 本 章 中 ， 你 将 通过 以 下 主题 学 习 相关 技术 以 达成 部 署 目 标 : 
口 通过 更 改 模 型 来 提高 性 能 
口 使 用 TensorFlow Serving 工具 
口 部 署 到 云 服 务 ， 例 如 AWS、GCP 和 Azure 


口 部 署 到 如 iPhone、Android 和 Tegra 等 移动 设备 
口 便 件 对 性 能 的 影响 
































13.1 性 能 提升 


模型 的 推理 时 间 取 决 于 使 用 硬件 运行 模型 所 需 的 每 秒 浮 点 运算 ( floating-point operations per 
second，FLOPS )。FLOPS 受 所 涉及 的 模型 参数 数量 和 浮 点 运算 次 数 的 影响 。 浮 点 运算 主要 是 矩 
阵 运算 , 例如 加 法 、 乘 法 和 除法 。 例 如 , 卷 积 运 算 只 有 几 个 代表 内 核 的 参数 , 但 是 计算 时 间 较 长 ， 
因为 该 运算 必须 在 输入 矩阵 上 执行 。 对 于 全 连接 层 ， 虽 然 参 数 多 ， 但 是 运行 很 快 。 


模型 的 权重 通常 是 双 精 度 浮 点 值 或 高 精度 浮 点 值 。 对 此 类 数字 进行 算术 运算 要 比 对 量化 值 进 
行 运算 昂贵 。 下 一 节 将 说 明 量 化 权重 是 如 何 影响 模型 性 能 的 。 



























































13.1.1 量化 权重 


量化 模型 的 权重 会 降低 其 浮 点 精度 。 尽管 精度 有 所 降低 , 但 模型 的 权重 仍 可 以 有 合理 的 准确 
率 表现 。 现 代 硬 件 可 以 在 较 短 的 时 间 内 执行 精度 较 低 的 操作 。 








13.1 性 能 提升 203 





13.1.2 MobileNets 


Howard 等 人 提出 了 一 种 使 用 学 习 范 式 进 行 更 快 推理 的 解决 方案 。 图 13-1 是 对 各 种 模型 使 用 
移动 推理 的 展示 。 通 过 这 种 技术 生成 的 模型 也 可 以 用 于 云 服务 。 

















对 象 检测 细 粒 度 分 类 
\ == > 国 ye . 
| bs MobileNets bb i 











图 13-1 对 各 种 模型 运用 移动 推理 ， 来自 Howard 等 人 
有 三 种 应 用 卷 积 的 方法 ， 如 图 13-2 所 示 。 


AAA 


-一 人 一 
(a) 标准 卷 积 过 滤器 (Conv) 


* 回 口 口 “0 


< 一 AM 一 























(b) 深度 卷 积 过 滤器 (Depthwise Conv) 


Hh 


—N— 


(0) 1 x 1 卷 积 滤波 器 在 深度 可 分 离 卷 积 背 景 下 称 为 逐 点 卷 积 











图 13-2 来自 Howard 等 人 
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常规 卷 积 可 以 用 深度 卷 积 代 蔡 ， 如 图 13-3 所 示 。 








3x3 Depthwise Conv 














图 13-3 来 自 Howard 等 人 


图 13-4 是 表示 准确 率 与 所 执行 操作 数 的 线性 关系 的 图 。 








ImageNet 准 确 率 





80 


70 


60 


50 


40 


ImageNet 准 确 率 与 操作 数 


100 
百 万 级 操作 数 


1000 





图 13-4 来 自 Howard 等 人 





图 13-5 表示 了 精度 对 参数 数量 的 依赖 性 ， 其 中 参数 以 对 数 刻度 绘制 。 
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ImageNet 准 确 率 与 百 万 级 参数 
80 
@ 224 外 192 和 160 @ 128 
70 3 
| a 
bE 各 
汪 名 , 
千 60 登 
信 
外 9 
三 
50 。 
纺 
40 
0.4 06 0.8 1 2 4 
百 万 级 参数 











13-5 来 自 Howard 等 人 


从 前 面 的 讨论 中 可 以 清楚 地 看 出 ,量化 提高 了 模型 推理 的 性 能 。 在 下 一 节 中 , 我 们 将 了 解 如 
何 使 用 TensorFlow Serving 为 生产 中 的 模型 提供 服务 。 








13.2 TensorFlow Serving 
TensorFlow Serving 是 Google 的 一 个 项 目 ， 可 将 模型 部 署 到 生产 环境 中 。TensorFlow Serving 
具有 以 下 优点 : 
口 延迟 低 、 推 理 快 ; 
口 并 行 式 ， 提 供 恨 好 的 吞吐 量 ; 
口 模型 版 本 管理 ， 可 以 交换 模型 而 不 会 导致 生产 停机 。 








这 些 优势 使 TensorFlow Serving 成 为 部 署 到 云 的 出 色 工 具 。TensorFlow 由 gRPC 服务 器 
( Google 的 远程 过 程 调用 系统 ) 提供 服务 。 大 多 数 生产 环境 在 Ubuntu 上 运行 , 因此 安装 TensorFlow 
服务 的 最 简单 方法 是 使 用 apt -get ， 如 下 所 示 : 


sudo apt-get install tensorflow-model-serving 





我 们 也 可 以 在 其 他 环境 下 对 源 代码 进行 编译 。 由 于 使 用 Docker 进行 部 署 的 普遍 性 ， 将 其 构 
建 为 Ubuntu 映像 更 加 容易 。 











206 第 13 章 部 署 训练 好 的 模型 




















图 13-6 是 TensorFlow Serving 的 架构 图 。 



















































































模型 训练 
模型 存储 库 
TensorFlow 会 开 
训练 数据 TensorFlow 模 型 一 一 一 > 模型 v1 
GPU EC2 实 例 
训练 并 
验证 模型 

模型 服务 部 署 | 

> TensorFlow 
客户 i > Serving 




















模型 经 过 训练 和 验证 之 后 ， 就 可 以 将 其 推送 到 模型 存储 库 。TensorFlow Serving 将 开始 根据 
版 本 号 为 模型 提供 服务 。 客 户 可 以 使 用 TensorFlow Serving 客户 端 查询 服务 器 。 要 从 Python 使 用 
客户 端 ， 请 按 以 下 步骤 安装 TensorFlow Serving API: 




















Sudo pip3 install tensorflow-serving-api 


先前 的 命令 将 安装 TensorFlow Serving 的 客户 端 组 件 ， 然 后 就 可 以 将 其 用 于 对 服务 器 的 推 
调用 了 。 


FT 





晶 








13.2.1 导出 训练 好 的 模型 


我 们 可 以 通过 使 用 tf.saved_model.builder.savedMoqelBuildqer 作为 协议 缓冲 区 对 
象 来 保存 训练 后 的 模型 。 首 先 创 建构 建 器 、 输 入 和 输出 张 量 。 下 面 的 伪 代 码 用 于 说 明 该 过 程 ， 你 
必须 用 相应 的 变量 替换 尖 括 号 (<> ) 包围 的 相应 变量 : 


bldr = tf.saved model.builder.SavedModelBuilder(<directory_to_ export>) 
tensor_inputs = tf.saved model.utils.build tensor_info(<inputs>) 
tensor_outputs = tf.saved model.utils.build tensor_info(<outputs>) 





























TensorFlow utils.build_tensor_info 实用 函数 可 帮助 我 们 创建 必要 的 输入 和 输出 协议 
缓冲 区 。 接 下 来 ， 我 们 将 为 推理 协议 缓冲 区 创建 签名 : 
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inference_signature = ( 


tf.saved model.signature def utils.build signature def (inputs={'inputs': 
tensor_inputs}, 


outputs={'predictions': tensor_outputs}, 
method name= tf.saved model.signature_ constants.PREDICT METHOD_NAME) 


TensorFlow signature_def_utils.build_signature_gdef 限 数 可 用 于 创建 签名 定义 协 
议 缓冲 区 。 创建 推理 签名 后 ， 我 们 将 使 用 模型 构建 器 的 add_meta_graph_and_variables 限 
数 将 其 导出 并 保存 : 


bldr.adqd meta_graph_ angd variables (tflow s, [tf.saved model.tag_constants.SER 
VING], 


signature def map={ 'inference results': inference signature}, 
legacy_init_op=<op_init>) 
bldr.save() 


这 会 将 模型 另存 为 export 目录 下 的 协议 缓冲 区 。 














13.2.2 ”把 导出 模型 投入 服务 


导出 模型 后 ， 可 以 通过 tensorflow_model_server 命令 来 启动 或 提供 服务 : 

















tensorflow model server --port=9000 --model name=<modelname> -- 
model base path=<modelpath> 


你 可 以 使 用 相应 的 模型 名 称 和 路 径 来 蔡 换 尖 括 号 包围 的 部 分 。 
13.3 ”在 云 上 部 嗜 


有 许多 云 供应 商 可 用 于 部 署 训 练 好 的 模型 。 在 本 节 中 , 我 们 将 看 到 使 用 Amazon Web Services 
(AWS ) 和 Google Cloud Platform ( GCP ) 的 部 署 步骤 。 





13.3.1 Amazon Web Services 





AWS 提供 了 许多 产品 和 解决 方案 来 支持 机 器 学 习 。 首 先 按 以 下 步骤 ,看 看 如 何 使 用 AWS 启 
动 一 台 简 单 的 机 融 。 


(1) 登入 AWS 后 ， 你 将 看 到 如 图 13-7 所 示 屏 幕 。 








Build a solution 
Get started with simple wizards and automated workflows. 
Launch a virtual machine © Build a web app P| Host a static website 
With EC2 or Lightsail With Elastic Beanstalk With S3, CloudFront, Route 53 
~1-2 minutes -6 minutes ~5 minutes 
AT Connectan loT device Cp Start a development project i Register a domain 
With AWS loT “© WithCodeStar 人 sa With Route 53 
~5 minutes ~5 minutes ~3 minutes 











图 13-7 
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(2) 选择 Launch a virtual machine( 运行 虚拟 机 ) 选项 。 接 下 来 你 将 看 到 如 图 13-8 所 示 画 面 。 





侠 EC2 Instance 


For users with clood experience who need a 
Fenible and scalabloe vetual machine” 


Why EC27 


， Futly cusomizablo nstance tlored to your needs. 
» Searyess integraton wen AWS services. 
» Fexble sohaion that scales to support changing workjoads. 


Ta wzard eroates an EC2 BG mioro waanoo wm Gefadt corfig ruticns. For More 
cptiong. use he EC2 nch netance wand 











图 13-8 AWS 启动 画面 
(3) 单 击 Get started( 开始 ) 进入 下 一 画面 ， 如 图 13-9 所 示 。 





Name your EC2 instance 


This js how you will identify your instance In AWS console, Choose a name that is easy for you to 
remember. 


| tensorflow 


Use this name 


图 13-9 输入 你 的 实例 识别 名 


(4) 输入 名 称 ( 可 能 是 你 自己 的 名 字 ) 进入 下 一 画面 ， 如 图 13-10 所 示 。 
aA 
Ubuntu Server 16.04 LTS 


Don't see the OS you are looking for? AWS offers additional options through the advanced EC2 Launch 
Instance wizard or you can explore the AWS Marketplace. 














Select an Operating System 











EE 
图 13-10 ”选择 操作 系统 
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(5) 选择 用 于 部 署 的 操作 系统 。Ubuntu 是 个 不 错 的 选择 ， 如 图 13-11 所 示 。 





Select an instance type 





t2.micro 


1 Core vCPU (up to 3.3 GHz), 1 GiB Memory RAM, 8 G9 Storage ET TOT 


Need a diflerent instance type? AWS offers additional options through the advanced EC2 Launch 
Instance wizard, 








图 13-11 选择 Ubuntu 用 于 部 署 
(6) 根据 硬件 要 求 选择 实例 类 型 ， 如 图 13-12 所 示 。 








Create a key pair 


Amazon EC2 secures your instance using a key pair. In this step you will download the private key to 
your computer. 


Save it in a safe place and use it when you connect to your instance. 
| tensorflow 
图 13-12 


(7) 为 安全 起 见 ， 需 要 创建 钥匙 对 以 便 登 人 机 器 。 提 供 文件 名 ， 如 图 13-13 所 示 。 




















© tensorflow 


Status- Completed! 











图 13-13 确认 机 器 名 称 


(8) 在 图 13-13 中 , 你 理应 看 见 状态 为 Completed( 已 完成 ), 现在, 你 可 以 通过 单 击 如 图 13-14 
所 示 的 按钮 转换 到 EC2 命令 行 。 


Proceed to EC2 console 


图 13-14 





(9) 启动 实例 会 有 一 个 短暂 的 停顿 。 当 实例 创建 完成 后 ,一 个 他 会 显现 出 来 以 供 登 和 人， 如 图 
1 3 


210 第 13 章 部署 训 练 好 的 模型 


Launch Instance “” 下 | Connect | Actions Y 


Q Name :tensorflow Add fiter 

















加 ”Name ~ Instance ID ~ Instance Type 
国 tensorflow i-073f5797e4bcbb9e9 {2.micro 
13-15 


(10) 单 击 Actions ( 操作 ) 按钮 ， 选 择 Terminate ( 结束 ) 可 以 在 需要 的 时 候 结束 实例 ， 如 图 
13-16 所 示 。 





Actions ^ 


Connect 


Launch More Like This 


Instance Settings 
Image 

Networking 
CloudWatch Monitoring 











13-16 
通过 以 上 步 又 可 以 根据 需要 的 硬件 要 求 创 建 实例 并 部 署 TensorFlow Serving ， 用 以 推理 客户 
的 查询 。 
13.3.2 Google Cloud Platform 


我 们 可 以 在 Google Cloud Platform ( GCP ) 上 新 建 实例 并 用 其 提供 模型 服务 ， 就 像 在 AWS 
上 所 做 的 那样 。 可 以 使 用 Gmail 登录 ， 进 入 GCP。 


(1) 单 击 如 图 13-17 所 示 的 按钮 进入 控制 台 。 


GO TO CONSOLE 


13-17 


(2) 所 有 选项 都 可 用 于 启动 所 需 实例 ,在 Computer Engine( 计算 机 引擎 ) 下 ,选择 VM instances 
(VM 实例 )， 如 图 13-18 所 示 。 


13.3 ”在 云 上 部 署 211 





Google Cloud Platform 和 MyFirst Project ~ 



















Cloud Launcher 


盏 Billing 
API APls & Services > 
[2 

百 Support > 

QQ IAM&admin > 

售 Getting started 

COMPUTE 

-© App Engine > 

类 ”Compute Engine 晶 > VM instances 
Instance groups 

财 Kubernetes Engine > 
Instance templates 

(…] Cloud Functions Disks 
Snapshots 

STORAGE Images 


Committed use discounts 
他 Bigtable 


Metadata 
BB Datastore > Health checks 
Zones 
ED 
> 
= Storage Operations 
他 SQL Quotas 
Settings 


所。 Spanner 


Cloud Launcher 


NETWORKING 





早早。 VD ntuwcrl 、 


图 13-18 在 控制 台 选 择 VM 实例 








(3) 接着 点 击 CREATE INSTANCE ( 创建 实例 )， 如 图 13-19 所 示 。 





加 CREATE INSTANCE 














图 13-19 
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(4) 现在 可 以 指明 所 需 核 数 和 CPU 了 ， 如 图 13-20 所 示 。 





和 Create an instance 


Name 


instance-2 


Zone 


us-east1-b 


Machine type 
Customize to select cores, memory and GPUs. 


2vCPUs 6 7.5 GB memory Customize 


Container 
Deploy a container image to this VM instance. Learn more 


Boot disk 


一 一 和 New 10 GB standard persistent disk 


\ Image 


Ubuntu 16.04 LTS Change 


Identity and API access 


Service account 
Compute Engine default service account 一 


Access scopes 

®© Allow default access 
Allow full access to all Cloud APls 
Set access for each API 


Firewall 
Add tags and firewall rules to allow specific network traffic from the Internet 


Allow HTTP traffic 
局 Allow HTTPS traffic 


Management, disks, networking, SSH keys 


You will be billed for this instance. Learn more 











图 13-20 ”选择 对 核 、 内 存 和 GPU 的 需求 
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(5) 过 一 会 儿 ， 实 例 就 可 用 了 ， 如 图 13-21 所 示 。 





@ instance-2 Us-east1-b 10.142.0.2 35.196.173.12 四 SSH | ~ 





Open in browser window 
Open in browser window on custom port 
View gcloud command 


Use another SSH client 











图 13-21 
实例 可 以 通过 浏览 絮 和 SSH 客户 端 访问 ， 并 用 作 模 型 服务 。 
13.4 ”在 移动 设备 上 部 署 


与 云 相 比 , 在 移动 环境 中 部 署 模型 具有 各 种 优势 , 例如 隐私 保护 和 有 零 延 迟 .iPhone 和 Android 
等 著名 的 移动 平台 提供 了 许多 有 助 于 将 模型 部 署 到 移动 环境 的 API。 








13.4.1 iPhone 


Apple 公司 为 与 机 器 学 习 相 关 的 应 用 引入 了 CoreML2 ， 我 们 可 以 在 其 网 站 上 找到 详细 信息 。 
CoreML 有 一 个 用 于 NLP 的 特殊 框架 ， 其 中 有 用 于 分 词 、 语 言 识 别 、POS 和 命名 实体 识别 等 的 预 
构建 API, 我 们 也 可 以 对 自 定 义 模 型 进行 训练 。 在 Apple 设备 中 , 使 用 CoreML 模型 的 速度 很 快 ， 
且 数 据 不 必 离 开设 备 就 可 以 进行 推理 。 大 多 数 TensorFlow 模型 可 以 转换 为 CoreML 模型 。 














13.4.2 Android 


Android 应 用 无 须 更 改 即 可 直接 使 用 TensorFlow 模型 。Android 中 可 以 导出 模型 ( 类似 于 
TensorFlow Serving 中 的 导出 ) 并 在 应 用 程序 中 使 用 。 为 了 提高 模型 的 效率 ，Graph Transform 工 
具 提 供 了 一 组 说 明 供 参 考 。 该 工具 可 用 于 删除 模型 中 用 于 训练 的 部 分 ， 从 而 减 小 模型 的 尺寸 。 














13.5 小结 


本 章 研究 了 各 种 方法 来 为 NLP 任务 部 署 训练 好 的 模型 。 首 先 ， 我 们 学 习 了 通过 量化 提高 模 
型 性 能 的 方法 ， 以 及 更 快 的 推理 方法 。 之 后 ,我 们 了 解 了 如 何 使 用 TensorFlow Serving 部 署 模型 
以 进行 更 快 、 可 扩展 的 推理 。 接 着 ,我 们 阐述 了 如 何 通 过 AWS 和 GCP 进行 云 部 署 。 最 后 ,我们 
概述 了 某 些 移动 平台 上 的 部 署 。 


最 后 一 章 介绍 了 如 何 部 署 训练 好 的 模型 并 在 云 中 提供 服务 。 有 了 这 些 知识 , 你 可 以 进一步 探 
索 如 何 将 自己 的 模型 部 署 到 生产 环境 中 去 。 
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流畅 的 Python 


人 PSF 研 究 员 、 知 名 PyCon 演 讲 者 心血 之 作 ，Python 核 心 开发 人 员 担 纲 
技术 审 校 

令 全 面 深入 ， 对 Python 语言 关键 特性 剖析 到 位 

令 大 量 详尽 代码 示例 ， 并 附 有 主题 相关 高 质量 参考 文献 

人 兼顾 Python 3 和 Python 2 


书号 : 978-7-115-45415-7 
定价 : 139.00 元 





Python 数据 处 理 


4 全 面 掌握 用 Python 进行 吟 虫 抓 取 以 及 数据 清洗 与 分 析 的 方法 ， 轻 松 实现 
高 效 数据 处 理 


书号 : 978-7-115-45919-0 
定价 : 99.00 元 





Python 网 络 数据 采集 


4 全 面 展示 网 络 数据 采集 常用 手段 ， 剖 析 网 络 表单 安全 措施 
4 使 用 Python 脚本 和 网 络 API 一 次 性 采集 并 处 理 海量 网 页 数据 ， 涵 盖 网 络 
岭 虫 技术 


书号 : 978-7-115-41629-2 
定价 : 59.00 元 


和 % 


微 信 连 接 





回避 本: 


回复 “Python” 查 看 相关 书 单 


微 博 连接 
关注 @ 图 灵 教 育 每 日 分 享 |T 好 书 


全 


QQ 连接 





图 灵 读 者 官方 群 I: 218139230 
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Python 自然 语言 处 理 实战 


自然 语言 处 理 (NLP ) 已 在 Web 搜 索 、 广 告 和 客户 服务 等 各 个 领域 中 得 
到 广泛 应 用 。 借 助 深度 学 习 ， 我 们 可 以 增强 NLP 在 这 些 领 域 的 性 能 。 使 
用 Python， 可 以 利用 深度 学 习 模 型 执行 各 种 NLP 任务 ， 以 及 应 对 当今 的 
各 种 NLP 挑战 。 


阅读 本 书后 ， 你 将 学 会 将 神经 网 络 融 入 各 种 跨 平 台 的 语言 应 用 程序 中 ， 
使 用 NLTK 和 TensorFlow 执 行 NLP 任务 并 训练 模型 ， 以 及 通过 强大 的 
深度 学 习 架 构 〈 例 如 CNN 和 RNN ) 增强 NLP 模型 。 


@ 进行 词语 的 语义 藤 入 以 对 实体 进行 分 类 和 查找 

@ 通过 训练 将 词语 转换 为 向 量 ， 以 执行 算术 运算 

@ 训练 深度 学 习 模 型 以 检测 推 文 和 新 闻 的 分 类 

@ 使 用 搜索 和 RNN 模 型 实现 问答 模型 

@ 使 用 CNN 为 各 种 文本 分 类 数据 集训 练 模型 

@ 实现 深层 生成 模型 WaveNet， 以 产生 自然 语音 
@ 将 语音 转换 为 文本 并 将 文本 转换 为 语音 

@ 使 用 DeepSpeech 训 练 模型 ， 将 语音 转换 为 文本 
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图 灵 社 区 : iTuring.cn 随 书 代码 资料 | 
分 类 建议 : 计算 机 / 自然 语言 处 理 定价 ，59.00 元 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn A 
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